|
|
|
|
移动端

目录

《ARM嵌入式系统编程与优化》本书结合ARM架构和Linux工具,关注以性能为导向的嵌入式编程,深入讲解如何通过对数据、算法和存储等层面的优化,最终实现性能的显著提升。本书先讲解ARM架构和嵌入式系统的基础知识,然后结合图像变换、分形生成和计算机视觉等应用案例,详细说明不同的优化方法。本节为目录。

作者:梁元宇 译来源:机械工业出版社|2017-09-26 18:57

【新品产上线啦】51CTO播客,随时随地,碎片化学习

目录

Embedded Systems: ARM Programming and Optimization
出版者的话
译者序
前言
致谢
第1章 Linux/ARM嵌入式平台  1
1.1 以性能为导向的编程  2
1.2 ARM技术  3
1.3 ARM简史  4
1.4 ARM编程  4
1.5 ARM体系集架构  5
1.5.1 ARM通用寄存器  5
1.5.2 状态寄存器  6
1.5.3 内存寻址模式  7
1.5.4 GNU ARM汇编  8
1.6 汇编优化1:排序  8
1.6.1 参考实现  8
1.6.2 汇编实现  9
1.6.3 结果验证  11
1.6.4 分析编译器生成的代码  13
1.7 汇编优化2:位操作  15
1.8 代码优化目标  16
1.8.1 减少执行指令数  16
1.8.2 降低平均CPI  16
1.9 使用性能计数器的运行时分析  18
1.9.1 ARM性能监控单元  18
1.9.2 Linux Perf_Event  18
1.9.3 性能计数器的基础架构  19
1.10 检测存储器带宽  22
1.11 性能测试结果  25
1.12 性能界限  25
1.13 基本指令集  26
1.13.1 整型算术指令  26
1.13.2 按位逻辑指令  26
1.13.3 移位指令  27
1.13.4 移动指令  27
1.13.5 加载和存储指令  28
1.13.6 比较指令  28
1.13.7 分支指令  29
1.13.8 浮点指令  29
1.14 小结  30
习题  31
第2章 多核和数据层优化:OpenMP和SIMD  33
2.1 本书所涉及的优化技术  33
2.2 阿姆达尔定律  34
2.3 测试内核:多项式评估  35
2.4 使用多核:OpenMP  37
2.4.1 OpenMP指令  37
2.4.2 范围  39
2.4.3 其他OpenMP指令  42
2.4.4 OpenMP同步  42
2.4.5 调试OpenMP代码  44
2.4.6 OpenMP并行循环编译指令  46
2.4.7 OpenMP与性能计数器  48
2.4.8 OpenMP支持霍纳内核  48
2.5 性能界限  48
2.6 性能分析  49
2.7 GCC中的内联汇编语言  50
2.8 优化1:降低每f?lop的指令数  51
2.9 优化2:降低CPI  54
2.9.1 软件流水线  54
2.9.2 软件流水线的霍纳方法  57
2.10 优化3:使用SIMD时的每指令多f?lop  63
2.10.1 ARM11的VFP短向量指令  65
2.10.2 ARM Cortex的NEON指令  67
2.10.3 NEON内联函数  69
2.11 小结  70
习题  71
第3章 算法优化和Linux帧缓冲  72
3.1 Linux帧缓冲  72
3.2 仿射图像变换  74
3.3 双线性插值  74
3.4 浮点图像变换  75
3.4.1 加载图像  76
3.4.2 渲染帧  78
3.5 浮点性能分析  82
3.6 定点运算  82
3.6.1 定点与浮点:准确度  83
3.6.2 定点与浮点:范围  83
3.6.3 定点与浮点:精度  83
3.6.4 使用定点  84
3.6.5 高效定点加法  84
3.6.6 高效定点乘法  87
3.6.7 确定小数点的位置  89
3.6.8 图像变换的范围和准确度要求  90
3.6.9 将浮点值转换为定点值的运算  90
3.7 定点性能  92
3.8 实时分形生成  92
3.8.1 像素着色  94
3.8.2 放大  94
3.8.3 范围和准确度要求  95
3.9 小结  96
习题  96
第4章 存储优化和视频处理  99
4.1 模板循环  99
4.2 模板案例:均值滤波器  100
4.3 可分离滤波器  100
4.3.1 高斯模糊  101
4.3.2 Sobel滤波器  103
4.3.3 Harris角点检测器  104
4.3.4 Lucas-Kanade光流  106
4.4 二维滤波器的存储访问行为  108
4.4.1 二维数据展示  108
4.4.2 按行滤波  108
4.4.3 按列滤波  109
4.5 循环分块  110
4.6 分块和模板晕区  112
4.7 二维滤波实现案例  112
4.8 视频帧的捕获和转换  116
4.8.1 YUV和色度抽样  116
4.8.2 将分块导出到帧缓冲区  118
4.9 Video4Linux驱动和API  119
4.10 使用二维分块滤波器  122
4.11 应用可分离的二维分块滤波器  123
4.12 顶层循环  124
4.13 性能结果  124
4.14 小结  124
习题  125
第5章 利用OpenCL进行嵌入式异构编程  127
5.1 GPU微体系结构  128
5.2 OpenCL  128
5.3 OpenCL编程模型、语法及摘要  129
5.3.1 主机/设备编程模型  129
5.3.2 错误检查  130
5.3.3 平台层:初始化平台  131
5.3.4 平台层:初始化设备  133
5.3.5 平台层:初始化上下文  135
5.3.6 平台层:内核控制  136
5.3.7 平台层:内核编译  137
5.3.8 平台层:设备存储分配  140
5.4 内核工作负荷分配  141
5.4.1 设备存储区  142
5.4.2 内核参数  143
5.4.3 内核向量化  145
5.4.4 霍纳内核的参数空间  146
5.4.5 内核属性  147
5.4.6 内核调度  147
5.5 霍纳方法的OpenCL实现:设备码  152
5.6 性能结果  156
5.6.1 参数探索  156
5.6.2 工作组数  156
5.6.3 工作组大小  157
5.6.4 向量大小  157
5.7 小结  158
习题  158
附录A 为Raspberry Pi 1的Raspbian系统添加PMU支持  160
附录B NEON内联函数指令  163
附录C OpenCL参考  175


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:365934973

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

SQL Server 2005数据挖掘与商业智能完全解决方案

本书以BI解决方案的体系结构为中心,以SQL Server 2005为载体,将着眼点放在数据挖掘和商业智能上,详细讲解了数据报表、数据分析和数据挖...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊