|
|
|
|
移动端

目录(3)

《高性能并行珠玑:多核和众核编程方法》本书由英特尔的技术专家撰写,全面、系统地讲解在英特尔至强处理器和至强融核协处理器上进行并行处理和编程的方法和技术。书中展示了如何在处理器和协处理器上进行并行处理和编程——展示了更好利用Intel Xeon Phi协处理器和Intel Xeon 处理器或其他多核处理器的系统计算潜力的最有效的方法。本节为目录。

作者:张云泉 等译来源:机械工业出版社|2017-11-14 17:20

技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战

目录(3)

第19章 Black-Scholes定价的性能优化  248
19.1 金融市场模型基础及Black-Scholes公式  248
19.1.1 金融市场数学模型  248
19.1.2 欧式期权和公平价格概念  249
19.1.3 Black-Scholes公式  250
19.1.4 期权定价  250
19.1.5 测试平台架构  250
19.2 案例研究  251
19.2.1 初始版本——检验正确性  251
19.2.2 参照版本——选择合适的数据结构  251
19.2.3 参照版本——不要混合使用数据类型  252
19.2.4 循环向量化  253
19.2.5 使用快速数学函数:erff()与cdfnormf()  255
19.2.6 代码等价变换  256
19.2.7 数组对齐  257
19.2.8 尽可能降低精度  258
19.2.9 并行工作  259
19.2.10 使用热身  260
19.2.11 使用Intel Xeon Phi协处理器实现轻松移植  261
19.2.12 使用Intel Xeon Phi协处理器实现并行工作  261
19.2.13 使用Intel Xeon Phi协处理器和流存储  262
19.3 总结  263
19.4 更多信息  264
第20章 使用Intel COI库传输数据  265
20.1 使用Intel COI库的第一步  265
20.2 COI缓冲区种类和传输性能  266
20.3 应用程序  269
20.4 总结  270
20.5 更多信息  270
第21章 高性能光线追踪  271
21.1 背景  272
21.2 向量化的光线遍历  272
21.3 Embree光线追踪内核  273
21.4 在应用程序中使用Embree  274
21.5 性能  276
21.6 总结  277
21.7 更多信息  278
第22章 OpenCL程序的可移植性能  279
22.1 两难的困境  279
22.2 OpenCL简介  280
22.3 OpenCL示例:矩阵乘  282
22.4 OpenCL与Intel Xeon Phi协处理器  285
22.5 性能评估  285
22.6 案例研究:分子对接算法  287
22.7 性能评估:性能可移植性  289
22.8 相关工作  291
22.9 总结  291
22.10 更多信息  291
第23章 应用到Stencil计算中的特性提取和优化方法  292
23.1 引言  292
23.2 性能评估  293
23.2.1 测试平台的AI  293
23.2.2 内核的AI  294
23.3 标准优化  296
23.3.1 自动应用调试  301
23.3.2 自动调试工具  304
23.3.3 结果  305
23.4 总结  305
23.5 更多信息  307
第24章 剖析指导优化  308
24.1 计算机科学中的矩阵转置  308
24.2 工具和方法  309
24.3 串行:初始的就地转置实现  310
24.4 并行:使用OpenMP增加并行度  313
24.5 分块:提高数据局部性  315
24.6 规范化:多版本微内核  319
24.7 预组织:释放更多的并行性  322
24.8 总结  326
24.9 更多信息  327
第25章 基于ITAC的异构MPI应用优化  328
25.1 亚式期权定价  328
25.2 应用设计  329
25.3 异构集群中的同步  330
25.4 通过ITAC寻找性能瓶颈  331
25.5 建立ITAC  331
25.6 非均衡的MPI运行  332
25.7 手动负载均衡  335
25.8 动态老板-工人负载均衡  337
25.9 结论  339
25.10 更多信息  340
第26章 集群上可扩展OOC解法器  341
26.1 引言  341
26.2 基于ScaLAPACK的OOC分解算法  342
26.2.1 核内分解  342
26.2.2 OOC分解  343
26.3 从NVIDIA GPU移植到Intel  Xeon Phi协处理器  344
26.4 数值结果  346
26.5 结论和展望  350
26.6 致谢  350
26.7 更多信息  350
第27章 稀疏矩阵向量乘:并行化和向量化  352
27.1 引言  352
27.2 稀疏矩阵数据结构  353
27.2.1 压缩后的数据结构  354
27.2.2 分块  356
27.3 并行SpMV乘法  356
27.3.1 部分分布式并行SpMV  356
27.3.2 完全分布式并行SpMV  357
27.4 Intel Xeon Phi协处理器的向量化  358
27.5 评估  362
27.5.1 Intel Xeon Phi协处理器  363
27.5.2 Intel Xeon处理器  365
27.5.3 性能比较  366
27.6 总结  366
27.7 致谢  367
27.8 更多信息  367
第28章 基于Morton排序的性能优化  368
28.1 通过数据重排提高缓存局部性  368
28.2 性能改进  368
28.3 矩阵转置  369
28.4 矩阵乘法  373
28.5 总结  377
28.6 更多信息  378


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

软件设计师考试考前冲刺预测卷及考点解析

本书依据最新版《软件设计师考试大纲》的考核要求,深入研究了历年软件设计师考试试题的命题风格和试题结构,对考查的知识点进行了提炼,并...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊