|
|
51CTO旗下网站
|
|
移动端

3.10 处理器与协处理器可扩展性对比

《高性能并行珠玑:多核和众核编程方法》第3章HBM上的SIMD与并发优化,本书中展示了如何在处理器和协处理器上进行并行处理和编程——展示了更好利用Intel Xeon Phi协处理器和Intel Xeon 处理器或其他多核处理器的系统计算潜力的最有效的方法。本节为大家介绍处理器与协处理器可扩展性对比。

作者:张云泉 等译来源:机械工业出版社|2017-11-14 18:32

3.10 处理器与协处理器可扩展性对比

图3-23展示了Baff?inBay_2nm测试用例在Intel Xeon Phi协处理器(KNC)上的OpenMP可扩展性。其中x轴表示内核数目,y轴表示转化为1.0的吞吐量(1/时间)。图中时间的单位是秒。上述内容所使用的内核线程数都是4个。从图中可以发现我们的平流模块在KNC上获得了非常好的内核可扩展性。理想化的内核并发性和可扩展性对与Intel Xeon Phi协处理器非常重要。

双插槽Intel Xeon处理器上的可扩展性测试结果如图3-24所示。由图可知,其可扩展性不是非常好。主要原因是受到了内存带宽的限制。我们为图3-24中各插槽的内核使用情况绘制了内存带宽利用率图,如图3-25所示。一个Xeon E5-2697 v2处理器上每个插槽的内存带宽峰值大约为43GB/s。因此,双插槽的内存带宽峰值应该在大约84~88GB/s的范围内。我们测试的应用程序好像达到了约6核12线程0号插槽的内存带宽峰值,通过分析图3-24的扩展性图可以得出,在峰值点后的可扩展性开始变得平缓了。然后在第二个插槽(1号插槽)13核上,我们发现扩展性有所增长,但是在17核上再次达到1号插槽的内存带宽峰值,从而限制了整个双插槽系统的性能提升。综上所述,我们可以得出这样的结论,由于内存带宽的限制,处理器性能和可扩展性的提升是有限的,但是Intel Xeon Phi协处理器自身的特点使得这种应用程序不因内存带宽的限制而影响提升性能。

图3-26展示了协处理器重要的并行性能和良好的并发性。x轴表示从1到60的协处理数目,y轴表示平流模块的吞吐量(1/时间)。Intel Xeon Phi协处理器上平流模块代码的性能似乎和100%并行(没有串行代码)的Amdahl图相匹配。例如,如果应用程序中有1%、3%和5%的串行代码,那么问题求解时间将会显著增加,因此吞吐量将会明显减少,如图3-26所示。这完全符合Amdahl定律。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

标准C++开发入门与编程实践

本书着重介绍标准C++语言,即1998年由ISO正式推出的关于C++的国际性标准版本。 本书从最基础的编程语言概念讲起,共分6篇24章。前4篇完整...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊