|
|
51CTO旗下网站
|
|
移动端

3.8 结果

《高性能并行珠玑:多核和众核编程方法》第3章HBM上的SIMD与并发优化,本书中展示了如何在处理器和协处理器上进行并行处理和编程——展示了更好利用Intel Xeon Phi协处理器和Intel Xeon 处理器或其他多核处理器的系统计算潜力的最有效的方法。本节为大家介绍结果。

作者:张云泉 等译来源:机械工业出版社|2017-11-14 18:27

3.8 结果

本节将展示HBM的性能和平流模块的一些特点。正如前面提到的一样,我们选择调整对流模块是因为这部分的执行时间在单节点的Intel Xeon处理器和Intel Xeon Phi协处理器上都占到了总时间的40%左右。协处理器上消耗的时间是优化这段代码前在处理器上时间的3倍。在数据结构采用上述优化后,我们对巴芬湾测试用例的HBM平流模块做了对比分析,其SIMD和纯OpenMP并行化在协处理的本地模式运行时性能比双插槽处理器上的性能提高了约15%。然而,我们的优化工作并未就此停止,我们发现一些提高缓存利用率的新方法,这将进一步提高并行性能。

所有的巴芬湾测试用例都是不规则的且把这些不规则的网格分割成一个负载均衡问题比理想的立方体测试用例更难处理。性能、上述数据局部性、SIMD和当前优化方法都极大提高了Xeon(E5-2697 v2)的性能并得到比原始Intel Xeon Phi协处理器(KNC)更好的性能。对于巴芬湾测试用例使用纯OpenMP并行化的方法在KNC 7120A上的并行性能比在处理器(E5-2697 v2)上提高了15%左右,如图3-21所示。

存储器带宽测量结果表明应用程序在协处理器上达到了约90%的实际可实现带(POP),并且在处理器上达到的实际带宽为100%。通过Stream Triad方法测量的实际带宽峰值比处理器的快2.15倍。处理器也使用了1.45倍的功率并达到了它的峰值。我们对于协处理器的功耗测量只测量了协处理器专用卡电源。因此从带宽数据我们可以推断,Intel Xeon Phi协处理器在数据重用方面还有提升空间,这将进一步充分利用各部分时间并尽可能达到100%的带宽峰值利用率。

当读者读到本章的SIMD优化部分时会发现高效利用向量化对于提升性能(尤其是在Intel Xeon Phi协处理器上)而言是一种重要的手段。向量化强度(VI)是向量化后的循环执行情况和使用VPU的效率的评价方法。由于512位向量长度限制VI值在单精度代码中不能超过16且在双精度代码中不能超过8。如果它的值远小于上述的规定值,这就意味着向量化循环效果非常差或VPU没有高效使用(访问次数低,且由于存在条件语句和向量化,屏蔽指令难以使用)。平流模块代码使用双精度浮点数据类型,因此VI值约为7表明了向量化循环非常好且在协处理器上的VPU利用率达到了82%~96%。

性能/功率(PW)的提升是指不同测试用例在基本的处理器(Xeon E5-2697 v2)和协处理器(KNC 7120A)得到解决方案的时间比乘以1.45系数后的结果。我们使用1.45作为系数是因为处理器(Xeon E5-2697 v2)达到峰值带宽消耗的功率是协处理器(KNC 7120A)功耗的1.45倍,另外当前应用已经获得了90%的峰值带宽。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

基于Project2003的项目管理

本书的上一版本《基于Project 2002的项目管理》上市以后得到了读者的欢迎,为了更好地将Project 2003新版本的应用介绍给读者,我们重新进行...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊