机器/视觉/六十讲（课程一）

2020-02-21 本文已影响0人时间之友

第一章图像处理

01、数字图像概述

像素是数字图像的基本元素。像素是在模拟图像数字化时对连续空间离散化得到的。

02、颜色空间

RGB颜色最大的好处是适合显示系统，直观且容易理解，但是有如下不足：
1.RGB利用3个颜色分量的线性组合来表示颜色，因此不同的色彩难以用精确的数值表示，定量分析困难
2.在RGB颜色系统中，3个颜色分量之间是高度相关的，即只要亮度改变，三个分量都会相应改变，如果一个颜色的某个分量发生了改变，那么这颜色也可能要发生改变
3.RGB颜色空间是一种均匀性较差的颜色空间

03、视觉传感器

TOF、双目、结构光

仅供参考，并不准确

04、深度图像

深度图像也被称为距离影像，是将从图像采集器到场景中各点的距离（深度）作为像素值的图像，它直接反映了景物可见的几何形状，深度图像经过坐标转化可以计算出点云数据。

在PCL [（Point Cloud Library）是在吸收了前人点云相关研究基础上建立起来的大型跨平台开源C++编程库] 中深度图像和点云图像区别在于，其邻近的检索方式不同，并且可以相互转换。

05、图像灰度化

我们日常处理图片时候很多时候是把图像灰度化，因为灰度图像是单通道的，RGB图像是三通道的，计算量少。

加权平均值法灰度转换公式。灰度转换还有两种最高值、平均值转换法，最常见的还是加权，跟进人眼对于RGB的敏感程度推算得来

06、直方图

直方图又称质量分布图，是一种统计报告图，一般用一些纵向条纹表示数据分布的情况。

07、直方图均衡化

就是通过一个数学公式，增强图像对比度，便于把特征区分开。

09、边缘检测

边缘检测是检测灰度变换较大的区域，常见的算法如Sobel算子，或叫sobel滤波，它的原理是使用3*3矩阵对原图进行卷积，计算出两个方向的灰度差分(偏导)；另外还有Canny边缘检测算子

10、图像卷积

卷积在图像中最大的应用是平滑化（应该是平滑吧，锐化主要是高通滤波和微分滤波法，锐化是使得灰度变换大的区域更清晰，即图像高频部分，这部分要多保留）和边缘检测（常用于计算图像边缘或者说梯度值）。
色彩剧烈变化的地方，就是图像的高频区域；色彩稳定平滑的地方，就是低频区域

11、图像去噪

消除图像中的噪声成分也叫做图像的平滑化或滤波操作。
高斯噪声：是指它的概率密度函数符合高斯分布(正态分布)的一类噪声。
椒盐噪声：也称脉冲噪声，它是一种随机出现的白点或者黑点。
信噪比(SNR)：信号与噪声的比值。

高斯滤波：一种线性平滑滤波，可以消除高斯噪声。高斯滤波就是对整幅图像进行加权平均的过程，每一个像素点的值都是像素本身和邻域内其他像素加权获得。
另外还有均值滤波；邻域平均法；中值滤波；形态学噪声滤波；小波去噪；

12、图像缩放

最邻近图像插值算法；双线性插值算法；

第二章相机标定

13、相机模型和标定

相机的模型即为小孔成像

14、内外参定义

相机中有四个坐标系：世界坐标系；相机坐标系；图像坐标系；像素坐标系；

相机坐标之间的转换就是 RT矩阵变换，即刚体的旋转平移。

相机的标定就是标定相机的内参和外参

15、标定方法的概述

通常使用棋盘格作为相机标定的工具，因为角点就是很好的特征。
大致步骤，打印一张A4纸的棋盘格（黑白间距需要已知，用于外参标定），并贴在一个平板上，针对棋盘格拍摄若干照片（10-20张），在图片中检测特征点（Harris特征），利用解析解估算方法计算出5个内部参数，以及6个外部参数，根据极大似然估计策略，设计优化目标并实现参数的refinement (改善；也就是张正友标定法）

机器人一般用：xyz-4点标定法（TCP以不同的姿态移动到参考点的位置）
2D视觉常用标定板：实心圆阵列图案；国际象棋盘图案

17、张正友标定方法

张正友标定法

整理后得出

计算外参

计算内参

内参外参标定，技术较为复杂

18、手眼标定

第三章图形检测

19、直线检测

说到图形检测，必提 Hough 变换(霍夫变换)，是一种特征提取技术，用于隔离图像中特定形状的技术。比如直线检测，就可以通过霍夫变换。

如图，左边是像素坐标，那么可得知 y=kx+b即为直线，xy为变量，kb为常量；那么我可以这样，当xy为常量，kb为变量时，所组成的图如右边，当这个k-b空间中可发现直线相交一点，就证明这个交点就是我们要的直线

圆形检测，也是认为图像中一个非零像素点都有可能是一个潜在的圆上的点，跟霍夫变换一样，也是通过投票，生产累计坐标平面，设置一个累计权重来定位圆。

矩形检测，利用直线检测的功能，将检测的直线段存储在一个列表里；从列表中提取出一条直线段，检测与它相连的直线；检测是否有四条直线段，依次垂直闭合相连。

第四章二维检测

22、二维码作用和种类概述

一维码和二维码

矩阵式二维码

23、二维码检测

第一步是图像预处理。滤波一般高斯滤波用的多

预处理之后，就开始进行四边形检测，步骤如下：

边缘检测。常见的有 Canny边缘检测算子；Sobel算子。
过滤四边形或者较小的四边形。
利用角度对四边形进一步筛选。
在RGB图中标示出检测到的四边形（就是类似halcon里面的一些过程）

24、图像仿射原理

在摄像头得到的图像中，比如上方二维码，四边形会有旋转畸变，我们需要判断二维码是左偏还是右偏了，这就需要仿射变换将它扭正。

25、汉明码

汉明码的设计初衷是作为信息校验码存在的，就是防止数据出错。

26、二维码的识别

就是这么简单

27、二维码测距

前面的工作完成后，再解算一下二维码在相机下的位姿并转换至机器人坐标系，得到二维码相对于机器人的坐标系，即两个齐次变换矩阵

图示

二维码坐标系相对于机器人相机坐标系的位置，我们可以通过PnP来判定。再通过齐次变换矩阵连乘的方式，就可以获得二维码坐标在机器人坐标系下的位置。

28、二维码的应用

前身是一维码，应用很多了。普通的二维码，很多就是一个网页链接；对于付款二维码，就比较复杂了，需要有个秘钥的校验；也可以作为slam的路标，比如贴在玻璃上；

第五章 LK光流

29、光流法概述

光流(optical flow) 是空间运动物体在观察平面上的像素运动的瞬时速度。

光流法是利用图像序列中像素在时域上的变化，以及相邻帧之间的相关性来找到上一帧和当前帧之间存在的对应关系，从而计算出相邻帧之间物体运动信息的一种方法。

该图展示三维空间物体的运动在二维成像平面上的投影。得到的是一个描述位置变化的二维矢量，但在运动间隔极小的情况下，我们通常视其为一个描述该点瞬时速度的二维矢量u=(u,v)，称为光流矢量

30、光流方程

光流方程有两个基本假设条件：

亮度恒定不变； 2. 时间连续或运动是小运动；

31、卢卡斯卡内德方法

LK光流算法的原理和数学推导方法

32、Pyramid LK（金字塔光流法）

常规LK算法的约束条件是小速度、亮度不变，图像区域一致性较强，但这种情况并不容易得到满足。如果以上约束条件没有满足，最终算出来的结果误差较大，那么金字塔光流法就是来解决这个问题的。

33、辅助人脸识别的LK光流法实例

大致方法是先获得实时人脸，再通过LK光流算法计算人脸的中心位置，并使用seetaface开源人脸识别库进行人脸位置校正，然后根据人脸位置相对于图像中心位置，来计算机器人头部跟随人运动的方向。

34、其他追踪方法介绍

传统追踪算法：LK；卡尔曼滤波以及各种相关滤波；CSK相关滤波；

第六章、传感器融合

35、传感器融合概述

比如里程计、比如 IMU（惯性测量单元）

卡尔曼滤波：是一种线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包含系统中的噪声和干扰的影响，所以最优估计也可以看成是滤波过程。

粒子滤波：通过寻找一组在状态空间中传播的随机样本来近似的表述概率密度函数，用样板均值代替积分算法，进而获得系统状态的最小方差估计的过程，这些样本被形象称为粒子，故称为粒子滤波。

36、卡尔曼滤波（一）

以下暂略，都是关联视觉slam技术 (simultaneous localization and mapping 即时定位与地图构建) 这块的。

第七章视觉里程计

47、视觉里程计概述

Visual Odometry 视觉里程计：通过分析处理下相关图像序列来确定机器人的位置和姿态。其目标是跟进相机拍摄的图像来估算相机运动的特征。通常来说，可以认为是VSLAM（视觉slam）的前端。
视觉里程计主要有两个方向，一是特征点法：能够在噪声较大，相机运动较快时运动，但缺点是地图是稀疏特征点；二是直接法，直接法不需要计算特征点，能够建立稠密地图，但是存在计算量大，鲁棒性不好的缺点。

48、特征点

特征点：图像中具有鲜明特性的部分并能够有效反应图像本质特征，能够标识图像中目标物体的点。
特征点要具备可重复性、可区别性、高效性。
特征点的信息包括: 关键点-位置、大小、方向、评分等；描述性-特征点周围的图像信息。
常见的特征点：SIFT、SURF、ORB

。。。。。

56、构造一个简单的视觉里程计

设计VO

57、直接法概述

尽管特征点法在视觉里程计中占主流地位，不少研究者任务它有以下缺点：

关键点的提取与描述子的计算非常耗时。实践中，SIFT在CPU中是无法实时计算的，而ORB也需要20毫秒的计算。如果整个SLAM以 30毫秒/帧的速度运行，那么一大半的时间都花在特征点计算上。
使用特征点时，忽略了特征点以外的所有信息。一张图有几十万个像素，而特征点通常只有几百个，会丢失大量信息。
相机有时候会运动到特征点缺失的地方，往往这些地方没有明显的纹理特征，比如大白墙，造成我们可能找不到足够的匹配点来计算相机运动。

解决方法是采用多种方法根据使用场景搭配使用。

58、光流法OV

直接法是从光流演变而来的，它们非常相似，具有相同的假设条件。光流描述了像素在图像中的运动，而直接法则附带了一个相机运动模型。
计算部分像素运动，称之为稀疏光流；计算所有像素运动称为稠密光流。稀疏光流主要以卢卡斯卡内为代表，可以在SLAM中用于跟踪特征点位置。

59、直接法

最常用的获取特征点方式就是直接法

60、VSLAM简介

slam主要解决“定位”与“地图构建”这两个问题。也就是说一边要估算传感器的位置，一边要建立周围环境的模型。
怎么解决呢？这就需要用到传感器。传感器能以一定的形式观察外部世界，不过，不同传感器的观察方式是不同的。当用相机作为传感器时，我们要做的，就是根据一张张连续的图片(或视频，一个意思)，从中推断相机的运动，以及周围环境的情况。

常见的开源slam算法

大体上来说，SLAM发展有两大趋势：

往轻量级、小型化发展，让其能嵌入到手机等小型化设备里，然后考虑以它为底层的功能应用。毕竟，大部分的应用都是实现机器人或VR、AR的功能，比如运动导航娱乐等。
利用高性能计算设备，实现高精度三维重建、场景理解等功能。

视觉惯导-融合SLAM方案。实际使用的时候，视觉结合惯导（又叫惯性传感器，主要是检测和测量加速度、倾斜、冲击、振动、旋转和多自由度(DoF)运动，是解决导航、定向和运动载体控制的重要部件）