计算机视觉作为人工智能的一个重要分支,目前已经广泛应用于智能驾驶、机器人、生物识别等众多领域。本书对计算机视觉特征描述子的性质进行了分类,并给出了计算机视觉处理流程的一般性框架。同时,本书也对目前较新的计算机视觉技术进行了介绍,这些技术包括3D深度感知方法、稀疏编码、卷积神经网络、深度学习等。本书针对的读者为从事计算机视觉的工程技术人员、研究人员等。读者可根据不同的应用,利用本书提供的知识来选择合适的特征描述子。本书将按各种鲁棒性属性来理解各类计算机视觉的特征描述子,读者在阅读本书时要具备一定的图像处理的基础知识。
作者简介:Scott Krig是计算机成像学、计算机视觉和图形可视化方面的先驱。他在1988年成立了Krig Research公司,该公司提供了世界上基于高性能工程工作站、超级计算机和专有成像硬件的成像和视觉系统,并为来自全球25个国家的客户提供服务。Scott也是全球范围的许多专利应用的发明人,其涉及的范围包括嵌入式系统、成像学、计算机视觉、DRM和计算机安全,他也曾在斯坦福大学做过研究。译者简介:1.刘波,博士,重庆工商大学计算机科学与信息工程学院教师,主要从事机器学习理论、计算机视觉和优化技术研究,同时爱好Hadoop和Spark平台上的大数据分析,也对Linux平台的编程和Oracle数据库感兴趣。2.靳小波,博士,副教授,硕士生导师,2009年7月从中国科学院自动化研究所模式识别国家重点实验室博士毕业。2010年5月入河南工业大学信息科学与工程学院参加工作至今。近年来,在国际级杂志和会议上发表论文多篇,申请专利一项。多次参与互联网作弊检测挑战赛获一等奖,曾主持青年科学基金一项,并参与两项青年科学基金。开发了一款开源的Java机器学习库JMLP。主要研究兴趣为机器学习、互联网挖掘和计算机视觉。3.于俊伟,博士,副教授,2009年12月从中国科学院自动化所毕业,随后在河南工业大学信息科学与工程学院工作至今,在国内外学术期刊及国际会议上发表论文10余篇,当前主持一项青年科学基金,主要从事计算机视觉、模式识别和智能信息处理等方向的研究。
第1章 图像的获取和表示 1
1.1 图像传感器技术 1
1.1.1 传感器材料 2
1.1.2 传感器光电二极管元件 3
1.1.3 传感器配置:马赛克、Faveon和BSI 3
1.1.4 动态范围和噪声 5
1.1.5 传感器处理 5
1.1.6 去马赛克 6
1.1.7 坏像素的校正 6
1.1.8 颜色和照明校正 6
1.1.9 几何校正 7
1.2 摄像机和计算成像 7
1.2.1 计算成像概述 7
1.2.2 单像素的摄像头计算 8
1.2.3 二维可计算摄像机 9
1.2.4 三维深度的摄像机系统 10
1.3 三维深度处理 21
1.3.1 方法概述 21
1.3.2 深度感知和处理中存在的问题 22
1.3.3 单目深度处理 27
1.4 三维表示:体元、深度图、网格和点云 31
1.5 总结 32
第2章 图像预处理 33
2.1 图像处理概述 33
2.2 图像预处理要解决的问题 34
2.2.1 计算机视觉的流程和图像预处理 34
2.2.2 图像校正 36
2.2.3 图像增强 36
2.2.4 为特征提取准备图像 37
2.3 图像处理方法分类 41
2.3.1 点运算 42
2.3.2 直线运算 42
2.3.3 区域运算 42
2.3.4 算法 42
2.3.5 数据转换 43
2.4 色度学 43
2.4.1 色彩管理系统概述 44
2.4.2 光源、白点、黑点和中性轴 44
2.4.3 设备色彩模型 45
2.4.4 颜色空间与色彩感知 45
2.4.5 色域映射与渲染目的 46
2.4.6 色彩增强的实际考虑 47
2.4.7 色彩的准确度与精度 48
2.5 空间滤波 48
2.5.1 卷积滤波与检测 48
2.5.2 核滤波与形状选择 50
2.5.3 点滤波 51
2.5.4 噪声与伪像滤波 52
2.5.5 积分图与盒式滤波器 53
2.6 边缘检测器 54
2.6.1 核集合: Sobel, Scharr, Prewitt, Roberts, Kirsch, Robinson和Frei-Chen 54
2.6.2 Canny检测器 55
2.7 变换滤波、Fourier变换及其他 56
2.7.1 Fourier变换 56
2.7.2 其他变换 58
2.8 形态学与分割 59
2.8.1 二值形态学 59
2.8.2 灰度和彩色形态学 61
2.8.3 形态学优化和改进 61
2.8.4 欧氏距离映射 61
2.8.5 超像素分割 62
2.8.6 深度图分割 63
2.8.7 色彩分割 64
2.9 阈值化 64
2.9.1 全局阈值化 65
2.9.2 局部阈值化 68
2.10 总结 69
第3章 全局特征和区域特征 70
3.1 视觉特征的历史概述 70
3.1.1 核心思想:全局、区域和局部 71
3.1.2 纹理分析 73
3.1.3 统计方法 76
3.2 纹理区域度量 77
3.2.1 边缘度量 77
3.2.2 互相关和自相关 79
3.2.3 Fourier频谱、小波和基签名 79
3.2.4 共生矩阵和Haralick特征 80
3.2.5 Laws纹理度量 89
3.2.6 LBP局部二值模式 90
3.2.7 动态纹理 91
3.3 统计区域度量 91
3.3.1 图像矩特征 92
3.3.2 点度量特征 92
3.3.3 全局直方图 94
3.3.4 局部区域直方图 94
3.3.5 散点图和3D直方图 95
3.3.6 多分辨率和多尺度直方图 97
3.3.7 径向直方图 98
3.3.8 轮廓或边缘直方图 99
3.4 基空间度量 99
3.4.1 Fourier描述 101
3.4.2 Walsh-Hadamard变换 102
3.4.3 HAAR变换 103
3.4.4 斜变换 103
3.4.5 Zernike多项式 103
3.4.6 导向滤波器 104
3.4.7 Karhunen-Loeve变换与Hotelling变换 104
3.4.8 小波变换和Gabor滤波器 105
3.4.9 Hough变换与Radon变换 106
3.5 总结 108
第4章 局部特征设计、分类和学习 109
4.1 局部特征 109
4.1.1 检测器、兴趣点、关键点、锚点、标注 110
4.1.2 描述子、特征描述、特征提取 110
4.1.3 稀疏局部模式方法 111
4.2 局部特征属性 111
4.2.1 选择特征描述子和兴趣点 111
4.2.2 特征描述子和特征匹配 112
4.2.3 好特征的标准 112
4.2.4 可重复性,相对于困难的查找算容易 113
4.2.5 判别性与非判别性 114
4.2.6 相对和绝对位置 114
4.2.7 匹配代价和一致性 114
4.3 距离函数 115
4.3.1 关于距离函数的早期研究成果 115
4.3.2 欧氏或笛卡儿距离度量 116
4.3.3 网格距离度量 118
4.3.4 基于统计学的差异性度量 119
4.3.5 二值或布尔距离度量 120
4.4 描述子的表示 121
4.4.1 坐标空间和复数空间 121
4.4.2 笛卡儿坐标 121
4.4.3 极坐标和对数极坐标 121
4.4.4 径向坐标 122
4.4.5 球面坐标 122
4.4.6 Gauge坐标 122
4.4.7 多元空间和多模数据 122
4.4.8 特征金字塔 123
4.5 描述子的密度 123
4.5.1 丢弃兴趣点和描述子 124
4.5.2 稠密与稀疏特征描述 124
4.6 描述子形状拓扑 125
4.6.1 关联性模板 125
4.6.2 块和形状 125
4.6.3 对象多边形 127
4.7 局部二值描述与点对模式 128
4.7.1 FREAK视网膜模式 129
4.7.2 Brisk 模式 130
4.7.3 ORB和BRIEF模式 131
4.8 描述子判别性 131
4.8.1 谱的判别性 132
4.8.2 区域、形状和模式的判别性 133
4.8.3 几何判别因素 133
4.8.4 通过特征可视化来评价判别性 134
4.8.5 精度与可跟踪 136
4.8.6 精度优化、子区域重叠、Gaussian权重和池化 138
4.8.7 亚像素精度 138
4.9 搜索策略与优化 139
4.9.1 密集搜索 139
4.9.2 网格搜索 139
4.9.3 多尺度金字塔搜索 140
4.9.4 尺度空间和图像金字塔 140
4.9.5 特征金字塔 142
4.9.6 稀疏预测搜索与跟踪 142
4.9.7 跟踪区域限制搜寻 143
4.9.8 分割限制搜索 143
4.9.9 深度或Z限制搜索 143
4.10 计算机视觉、模型和结构 144
4.10.1 特征空间 144
4.10.2 对象模型 145
4.10.3 约束 146
4.10.4 选择检测器和特征 146
4.10.5 训练概述 147
4.10.6 特征和对象的分类 148
4.10.7 特征学习、稀疏编码和卷积网络 154
4.11 总结 158
第5章 特征描述属性的分类学 159
5.1 特征描述子系列 160
5.2 计算机视觉分类学方面的早期研究成果 161
5.3 鲁棒性和精度 161
5.4 通用的鲁棒性分类学 162
5.4.1 光照 163
5.4.2 颜色准则 163
5.4.3 不完全性 164
5.4.4 分辨率和精度 164
5.4.5 几何失真 165
5.4.6 效率变量、费用和效益 165
5.4.7 判别性和唯一性 165
5.5 通用的视觉度量分类学 166
5.5.1 特征描述子族 168
5.5.2 频谱维度 168
5.5.3 频谱类型 168
5.5.4 兴趣点 171
5.5.5 存储格式 171
5.5.6 数据类型 172
5.5.7 描述子内存 172
5.5.8 特征形状 173
5.5.9 特征模式 173
5.5.10 特征密度 174
5.5.11 特征搜索方法 174
5.5.12 模式对采样 175
5.5.13 模式区域大小 176
5.5.14 距离函数 176
5.6 特征度量评估 177
5.6.1 效率变量、成本和效益 177
5.6.2 图像重建的效率度量 178
5.6.3 特征度量评估举例 178
5.7 总结 180
第6章 兴趣点检测与特征描述子研究 181
6.1 兴趣点调整 181
6.2 兴趣点概念 182
6.3 兴趣点方法概述 184
6.3.1 Laplacian 和Gaussian -Laplacian 185
6.3.2 Moravac角点检测器 185
6.3.3 Harris方法、Harris-Stephens、Shi-Tomasi以及Hessian类型的检测器 186
6.3.4 Hessian矩阵检测器和Hessian-Laplace 186
6.3.5 Gaussian差 187
6.3.6 显著性区域 187
6.3.7 SUSAN、Trajkovic 以及 Hedly 187
6.3.8 Fast、Faster以及 AGHAST 188
6.3.9 局部曲率方法 189
6.3.10 形态兴趣区域 189
6.4 特征描述子介绍 190
6.4.1 局部二值描述子 190
6.4.2 Census 197
6.4.3 BRIEF 198
6.4.4 ORB 199
6.4.5 BRISK 200
6.4.6 FREAK 201
6.5 谱描述子 202
6.5.1 SIFT 202
6.5.2 SIFT-PCA 206
6.5.3 SIFT-GLOH 207
6.5.4 改进的SIF-SIFER 207
6.5.5 SIFT CS-LBP改造 208
6.5.6 RootSIFT改造 208
6.5.7 CenSurE和STAR 209
6.5.8 相关模板 210
6.5.9 HAAR特征 212
6.5.10 使用类HAAR特征的Viola Jones算法 213
6.5.11 SURF 214
6.5.12 其他SURF算法 215
6.5.13 梯度直方图及变种 216
6.5.14 PHOG和相关方法 217
6.5.15 Daisy和O-Daisy 218
6.5.16 CARD 219
6.5.17 具有鲁棒性的快速特征匹配 221
6.5.18 RIFF和CHOG 222
6.5.19 链码直方图 223
6.5.20 D-NETS 224
6.5.21 局部梯度模式 225
6.5.22 局部相位量化 225
6.6 基空间描述子 226
6.6.1 傅里叶描述子 227
6.6.2 用其他基函数来构建描述子 228
6.6.3 稀疏编码方法 228
6.7 多边形形状描述 229
6.7.1 MSER方法 229
6.7.2 针对斑点和多边形的物体形状度量 230
6.7.3 形状上下文 233
6.8 3D、4D、体积以及多模态描述子 234
6.8.1 3D HOG 235
6.8.2 HON 4D 235
6.8.3 3D SIFT 236
6.9 总结 237
第7章 基准数据、内容、度量和分析 238
7.1 什么是基准数据? 238
7.2 先前关于标注数据方面的研究:艺术与科学 240
7.2.1 质量性能的一般度量 240
7.2.2 算法性能的衡量 241
7.2.3 Rosin关于角点方面的研究工作 242
7.3 构造基准数据的关键问题 243
7.3.1 内容:采用、修改或创建 243
7.3.2 可用的基准数据介绍 243
7.3.3 使用数据拟合算法 244
7.3.4 场景构成和标记 245
7.4 定义目标和预期 247
7.4.1 Mikolajczyk和Schmid的方法学 247
7.4.2 开放式评价系统 248
7.4.3 极端情况和限制 248
7.4.4 兴趣点和特征 248
7.5 基准数据的鲁棒性准则 249
7.5.1 举例说明鲁棒性准则 249
7.5.2 将鲁棒性准则用于实际应用 250
7.6 度量与基准数据的配对 252
7.6.1 兴趣点、特征和基准数据的配对和优化 252
7.6.2 一般的视觉分类学的例子 253
7.7 合成的特征字母表 254
7.7.1 合成数据集的目标 254
7.7.2 合成兴趣点字母表 256
7.7.3 将合成字母表叠加到真实图像上 258
7.8 总结 260
第8章 可视流程及优化 261
8.1 阶段、操作和资源 261
8.2 计算资源预算 263
8.2.1 计算单元、ALU和加速器 265
8.2.2 能耗的使用 266
8.2.3 内存的利用 266
8.2.4 I O性能 269
8.3 计算机视觉流程的实例 270
8.3.1 汽车识别 270
8.3.2 人脸检测、情感识别以及年龄识别 277
8.3.3 图像分类 285
8.3.4 增强现实 289
8.4 可选的加速方案 294
8.4.1 内存优化 294
8.4.2 粗粒度并行 296
8.4.3 细粒度数据并行 297
8.4.4 高级指令集和加速器 300
8.5 计算机视觉算法的优化与调整 301
8.5.1 编译器优化与手工优化 301
8.5.2 特征描述子改造、检测器和距离函数 302
8.5.3 Boxlets与卷积加速 303
8.5.4 数据类型优化,整型与浮点型 303
8.6 优化资源 304
8.7 总结 304
附录A 合成特征分析 306
A.1 目标的背景与期望 307
A.2 测试方法和结果 309
A.3 合成字母基准图像概述 311
A.4 测试1:合成兴趣点字母检测 313
A.5 测试2:合成角点字母检测 323
A.6 测试3:叠加到真实图像上的合成字母检测 333
A.7 测试4:字母的旋转不变性 333
A.8 结果分析和不可重复性异常 336
附录B 基准数据集概述 339
附录C 成像和计算机视觉资源 347
C.1 商业产品 347
C.2 开放源码 348
C.3 组织、机构和标准 350
C.4 在线资源 351
附录D 扩展SDM准则 353
译后记 370
参考文献 372
计算机视觉度量深入解析pdf