OpenCV与机器学习问题解析

table {
border-collapse: collapse;
width: 100%;
margin-bottom: 1rem;
}
th, td {
border: 1px solid #ddd;
padding: 8px;
text-align: left;
}
th {
background-color: #f2f2f2;
}
tr:nth-child(even) {
background-color: #f9f9f9;
}
pre {
background-color: #f8f8f8;
padding: 15px;
border-radius: 4px;
overflow-x: auto;
}

20、When using cv::moments() to extract bottle contour moments, how should we set isBinary? Explain your answer.

We should set

isBinary
to

true
. If

isBinary
is set to

true
, all nonzero pixels will be treated as having value 1, rather than whatever actual value is stored there. When extracting bottle contour moments, if the image is the output of a threshold operation (which is common when dealing with contour extraction), the nonzero values might be something like 255. By setting

isBinary
to

true
, we can standardize these nonzero values to 1, which is useful for the correct calculation of moments as it simplifies the treatment of the binary – like nature of the contour image.

21、cv::goodFeaturesToTrack() 中使用的协方差Hessian矩阵是在该函数中由 block_size 设置的图像中的某个方形区域上计算的。a. 从概念上讲，当 block_size 增大时会发生什么？我们会得到更多还是更少的“好特征”？为什么？b. 深入研究 lkdemo.cpp 代码，搜索 cv::goodFeaturesToTrack()，并尝试调整 block_size 来观察差异。

a. 当 block_size 增大时的情况分析

当 block_size 增大时，我们会得到更少的“好特征”。原因如下：

cv::goodFeaturesToTrack()
函数的目的是在图像中寻找角点作为“好特征”。该函数通过计算局部区域内的协方差Hessian矩阵来评估每个像素点是否为角点。

block_size 定义了计算协方差Hessian矩阵时所考虑的方形区域的大小。当 block_size 增大时，意味着在更大的区域内计算矩阵。

更大的区域会使局部区域内的像素信息更加平滑和平均。角点通常是图像中局部区域灰度变化剧烈的点，而增大 block_size 会使得局部区域内的灰度变化被平均化，导致原本可能被识别为角点的像素点不再满足角点的判定条件。因此，能够被识别为“好特征”的角点数量会减少。

b. 深入 lkdemo.cpp 代码并调整 block_size

以下是具体步骤：

打开 lkdemo.cpp 文件

：使用文本编辑器或集成开发环境（IDE）打开 lkdemo.cpp 文件。

搜索

cv::goodFeaturesToTrack()

：在文件中搜索

cv::goodFeaturesToTrack()
函数调用。通常代码可能如下所示：

cpp cv::goodFeaturesToTrack(image, corners, maxCorners, qualityLevel, minDistance, mask, blockSize, useHarrisDetector, k);

调整 block_size

：修改

blockSize
参数的值，例如将其增大或减小。可以尝试不同的值，如 3、5、7 等。

编译和运行代码

：保存修改后的代码，然后编译并运行程序。观察输出结果中检测到的角点数量和分布的变化。

当增大 block_size 时，会发现检测到的角点数量减少，角点分布更加稀疏。

当减小 block_size 时，会发现检测到的角点数量增加，角点分布更加密集。

22、考虑实现亚像素角点检测的函数cv::findCornerSubPix()。a. 如果角点发生扭曲，使得原本的直的明暗线变成了在某一点相交的曲线，亚像素角点检测是否仍然有效？请解释。b. 如果扩大扭曲棋盘角点周围的窗口大小（在扩大win和zero_zone参数之后），亚像素角点检测会变得更准确还是会开始发散？请解释你的答案。

a. 亚像素角点检测可能不会像在直线情况下那样有效。

cv::cornerSubPix()
函数的原理是基于向量和正交向量的点积为0这一数学特性。在直线的明暗线情况下，梯度和向量的关系比较明确，在均匀区域梯度为0，在边缘处梯度与沿边缘的向量正交，通过收集多组这样的梯度和向量对并求解方程组来得到更精确的亚像素角点位置。但当角点扭曲，直线变成曲线时，梯度的方向和大小不再像直线情况那样有规律，梯度与向量的正交关系也不再清晰，难以准确地利用点积为0的条件来构建方程组并求解，因此亚像素角点检测可能无法准确找到角点的亚像素位置。

b. 扩大窗口大小后，亚像素角点检测可能会开始发散。在正常情况下，合适的窗口大小可以让函数收集到足够的有效信息来准确计算角点位置。但对于扭曲的棋盘角点，扩大窗口会包含更多不规则的区域。由于曲线的存在，这些区域的梯度和向量关系复杂且不满足原本基于直线假设的条件。更多的不规则信息会干扰方程组的求解，使得计算结果偏离真实的角点位置，导致检测结果开始发散，而不是变得更准确。

23、卡尔曼滤波器依赖于线性动力学和马尔可夫独立性（即，它假设当前状态仅取决于上一个状态，而不是所有过去的状态）。假设你想跟踪一个物体，其运动与它的前一个位置和前一个速度有关，但你错误地只包含了状态依赖于前一个位置的动力学项——换句话说，忘记了前一个速度项。卡尔曼假设是否仍然成立？如果成立，请解释原因；如果不成立，请解释假设是如何被违反的。

卡尔曼假设不再成立

卡尔曼滤波器要求当前状态仅取决于上一个状态，且动力学关系是线性的。

在本题中，物体的实际运动与前一个位置和前一个速度有关，但模型中只考虑了前一个位置，忽略了前一个速度项。

这意味着模型不能准确描述物体的实际运动，即动力学关系与实际情况不符，违反了卡尔曼滤波器关于线性动力学的假设，因为没有完整包含影响当前状态的所有因素，所以卡尔曼假设被破坏。

24、卡尔曼滤波器依赖于线性动力学和马尔可夫独立性（即，它假设当前状态仅取决于上一个状态，而不是所有过去的状态）。假设你想跟踪一个其运动与它的先前位置和先前速度有关的物体，但你错误地只包含了状态依赖于先前位置的动力学项——换句话说，忘记了先前速度项。当你忘记了动力学的某些项时，如何让卡尔曼滤波器仍然能够进行跟踪？提示：考虑噪声模型。

当忘记动力学的某些项时，可以通过调整噪声模型来让卡尔曼滤波器仍然能够进行跟踪。由于遗漏了如物体先前速度这样的动力学项，原本由这些被遗漏项所描述的系统动态变化就无法在模型中体现，而这部分未被建模的动态变化可以被视为额外的不确定性。

我们可以增大过程噪声协方差矩阵 $ Q_k $。过程噪声 $ w_k $ 代表了随机事件或力对系统实际状态的直接影响，其分量服从零均值高斯分布 $ mathcal{N}(0, Q_k) $。

增大 $ Q_k $ 意味着承认系统中存在更多未被建模的不确定性，这样卡尔曼滤波器在更新状态估计时，会对新的测量值赋予更高的权重，相对降低对基于不完整动力学模型所做预测的信任程度。

通过这种方式，滤波器能够在一定程度上适应由于遗漏动力学项而产生的误差，从而仍然有可能对物体进行跟踪。

25、描述如何使用线性状态模型（非扩展）卡尔曼滤波器来跟踪圆周（非线性）运动。提示：如何对其进行预处理以恢复线性动力学？

使用线性状态模型卡尔曼滤波器跟踪圆周运动

要使用线性状态模型（非扩展）卡尔曼滤波器来跟踪圆周（非线性）运动，可通过预处理将其转化为线性动力学问题。

圆周运动的处理方法

分解运动方向

：对于圆周运动，可将其分解为在笛卡尔坐标系下的 x 和 y 方向的运动。

非线性关系

：圆周运动在笛卡尔坐标系下的位置和速度关系是非线性的。

极坐标转换

：对数据进行极坐标转换：

在极坐标系中，圆周运动的半径是固定的。

角度的变化是线性的。

线性化与滤波

转化为线性关系

：通过上述方式，将非线性的圆周运动转化为极坐标系下的线性关系。

使用线性卡尔曼滤波器

：在极坐标系中，使用线性状态模型的卡尔曼滤波器来进行跟踪。

结果转换

转回笛卡尔坐标系

：将极坐标系下的跟踪结果转换回笛卡尔坐标系。

获取原始坐标系下的跟踪结果

：以得到在原始坐标系下的跟踪结果。

26、高端相机通常有镜头系统，可以在物理上校正图像中的畸变。如果你仍然对这样的相机使用多参数畸变模型，会发生什么？提示：这种情况被称为过拟合。

如果对已经有物理校正畸变系统的高端相机使用多参数畸变模型，会出现过拟合的情况。

过拟合意味着模型过于复杂，它会对训练数据中的噪声和随机波动进行建模，而不是捕捉数据的真实模式。

在相机校准的场景中，这可能导致：

模型在用于校准的特定图像集上表现良好；

但在新的、未见过的图像上表现不佳；

无法准确地泛化到更广泛的情况；

使得校准参数不准确；

可能无法有效地校正图像畸变，甚至可能引入不必要的误差。

27、仿射和投影（透视投影）变换：变换矩阵为( a1 a2 b1 a3 a4 b2 c1 c2 1)，其中，a元素构成旋转、缩放和剪切矩阵，组成仿射变换。b元素构成一个(x, y)平移向量，c元素构成透视投影向量，它们共同构成完整的透视投影矩阵。 a. 想象一台相机正对着一个棋盘。哪些相机运动可以同时用仿射变换和透视投影变换来建模？ b. 平面上多少个点可以定义一个仿射变换？多少个点可以定义一个透视投影变换？ c. 在仿射投影中：直线是否仍然是直线？线段长度是否保持不变？平行线是否仍然平行？如果两条直线在原始图像中相交，经过仿射投影后它们是否总是相交？ d. 在透视投影中：直线是否仍然是直线？线段长度是否保持不变？平行线是否仍然平行？如果两条直线在原始图像中相交，经过透视投影后它们是否总是相交？


a. 相机在平行于棋盘平面的方向上进行平移和旋转运动可以同时用仿射变换和透视投影变换来建模。因为在这种情况下，棋盘在图像中的基本几何关系（如直线性、平行性等）的改变可以用仿射变换描述，同时也符合透视投影变换的基本规则。

b. 平面上3个不共线的点可以定义一个仿射变换，因为仿射变换有6个自由度（2×2的线性变换矩阵有4个参数，2个平移参数），3个点可以提供6个方程来确定这些参数；平面上4个不共线的点可以定义一个透视投影变换，因为透视投影变换有8个自由度，4个点可以提供8个方程来确定这些参数。

c. 在仿射投影中：

- 直线仍然是直线，因为仿射变换是线性变换和平移的组合，线性变换会保持直线的线性性质。
- 线段长度通常不会保持不变，因为仿射变换包含旋转、缩放和剪切操作，这些操作会改变线段的长度。
- 平行线仍然平行，仿射变换是一种线性变换，它会保持向量的线性组合关系，所以平行线在仿射变换后仍然平行。
- 如果两条直线在原始图像中相交，经过仿射投影后它们总是相交，因为仿射变换是连续的，不会改变直线的相交性质。

d. 在透视投影中：

- 直线仍然是直线，透视投影是一种投影变换，它会将空间中的直线投影到图像平面上，仍然表现为直线。
- 线段长度通常不会保持不变，透视投影会根据物体与相机的距离产生近大远小的效果，所以线段长度会改变。
- 平行线通常不再平行，透视投影会产生透视效果，使得原本平行的直线在图像中会汇聚到一个消失点。
- 如果两条直线在原始图像中相交，经过透视投影后它们通常仍然相交，但在特殊情况下（如相交点在无穷远处），经过透视投影后可能会出现不同的情况，但在实际图像中，一般认为相交的直线经过透视投影后仍然相交。

28、在观察地面平面时，我们发现存在一条地平线，在地平线之外单应性无效。一个无限的平面怎么会有地平线呢？为什么它看起来不是永远延伸下去呢？提示：从相机向平面上一系列等间距且远离相机的点画直线。相机到平面上每个下一个点的角度与到前一个点的角度相比是如何变化的？

地平线的形成与单应性失效的原因

虽然地面平面在实际中可视为无限平面，但由于我们是通过相机去观察这个平面，受到视角和投影的影响，会出现地平线。

当我们从相机向平面上一系列等间距且远离相机的点画直线时，相机到平面上每个下一个点的角度与到前一个点的角度相比，角度的变化会越来越小。随着点离相机越来越远，这些点在相机成像平面上的投影会逐渐汇聚到一个位置，这个位置就形成了我们所看到的地平线。

在这个地平线之外，由于投影的特性以及光线传播等因素，单应性模型不再能准确描述平面上点的映射关系，所以单应性就无效了。

也就是说，虽然平面本身是无限的，但我们的观察和成像方式使得平面看起来像是有一个边界（地平线），而不是永远延伸下去。

29、如果你有一个已校准的立体相机，并且正在两个相机中跟踪移动点，你能想出一种使用基础矩阵来查找跟踪误差的方法吗？


# 基础矩阵与跟踪误差检测

基础矩阵（Fundamental Matrix）*F* 建立了立体视觉系统中两个图像平面之间的对应关系。

对于一对立体图像中的点，基础矩阵有一个重要的性质：

如果点 $ p_1 = (x_1, y_1, 1)^T $ 是左图像中的一个点，点 $ p_2 = (x_2, y_2, 1)^T $ 是右图像中对应的点，那么它们满足：

$$
p_2^T F p_1 = 0
$$

基于此性质，可以按照以下步骤使用基础矩阵来查找跟踪误差：

## 1. 获取对应点

在两个相机视图中跟踪移动点，得到一系列对应的点对 $ (p_{1i}, p_{2i}) $，其中 *i* 表示第 *i* 个时间步或第 *i* 个跟踪的点对。

## 2. 计算基础矩阵约束误差

对于每一对跟踪的点 $ (p_{1i}, p_{2i}) $，计算：

$$
d_i = p_{2i}^T F p_{1i}
$$

理想情况下，如果跟踪是完美的，并且点对确实对应，那么 $ d_i $ 应该为 0。然而，由于跟踪误差（如点检测不准确、运动估计误差等），$ d_i $ 通常不为 0。

这个 $ d_i $ 的值可以作为该点对的跟踪误差的一个度量。

## 3. 误差分析

### - 单个点对误差

可以查看每个 $ d_i $ 的值。较大的 $ d_i $ 表示该点对的跟踪可能存在较大误差。

可以设置一个阈值，当 $ |d_i| $ 超过该阈值时，认为该点对的跟踪不可靠。

### - 整体误差统计

可以计算所有 $ d_i $ 的统计信息，如均值、标准差等。

- 均值较大表示整体跟踪存在系统性误差  
- 标准差较大表示跟踪误差的波动较大

## 4. 异常值检测与修正

根据计算得到的误差，可以识别出跟踪误差较大的点对（异常值）。

对于这些异常值，可以尝试：

- 重新检测点  
- 使用更复杂的跟踪算法  
- 根据其他可靠点对进行插值或外推来修正跟踪结果  

通过上述方法，利用基础矩阵的约束条件，可以有效地检测和量化立体相机中移动点的跟踪误差，并根据误差情况进行相应的修正和优化。

30、假设在一个晴朗的日子里，将一个向下看的相机系在一个氦气球上放飞。气球向上飞行，直到在某个高度气球爆炸。仅使用相机及其帧率，你如何能确定气球爆炸时相机的高度？

以下是一种可能的方法来利用相机及其帧率确定气球爆炸时相机的高度：

选择参考物体

：在地面上选择一个已知尺寸的参考物体，例如一个标准尺寸的正方形或圆形标记。这个参考物体应该在相机的视野范围内，并且在气球上升过程中始终可见。

测量参考物体在图像中的尺寸变化

：在气球上升过程中，相机持续拍摄图像。随着相机高度的增加，参考物体在图像中会逐渐变小。通过分析相邻帧之间参考物体在图像中的尺寸变化，可以计算出相机相对于参考物体的相对运动。

利用帧率计算时间

：由于相机的帧率是已知的，我们可以通过计算相邻帧之间的时间间隔来确定相机上升的时间。例如，如果相机的帧率是30帧/秒，那么相邻帧之间的时间间隔就是1/30秒。

建立几何模型

：根据参考物体的实际尺寸、在图像中的尺寸变化以及相机的视角，可以建立一个几何模型来计算相机的高度。具体来说，可以利用相似三角形的原理，通过参考物体的实际尺寸和在图像中的尺寸比例，以及相机的视角来计算相机到参考物体的距离。

积分计算高度

：在气球上升过程中，相机的高度是不断变化的。我们可以将相机的上升过程分成多个小段，每个小段的时间间隔由帧率确定。在每个小段内，根据上述几何模型计算相机的高度变化，并将这些高度变化累加起来，就可以得到气球爆炸时相机的总高度。

需要注意的是，这种方法的准确性受到多种因素的影响，例如参考物体的尺寸测量误差、相机的视角误差、图像分析的精度等。因此，在实际应用中，需要尽可能减小这些误差，以提高高度测量的准确性。

31、如果每个数据点中的特征在尺度上差异很大（例如，第一个特征的取值范围是1到100，第二个特征的取值范围是0.0001到0.0002），请解释这是否会对以下算法造成问题，并说明原因：a. 支持向量机（SVM）b. 决策树 c. 反向传播算法

a. 对于SVM，特征尺度差异大会造成问题。SVM在一定程度上依赖于距离度量，当特征尺度差异大时，尺度大的特征会在距离计算中占据主导地位，而尺度小的特征对结果的影响可能被忽略，导致SVM无法正确学习到不同特征对分类的贡献，从而影响分类效果。所以通常需要对特征进行归一化处理来解决这个问题。

b. 对于决策树，特征尺度差异大不会造成问题。因为决策树在寻找有效分割阈值时，只关注每个变量本身，它不依赖于特征之间的尺度关系，只要能找到清晰的分割值，就可以进行节点划分，所以特征尺度的差异不会对决策树的性能产生不利影响。

c. 对于反向传播算法，特征尺度差异大会造成问题。反向传播算法通常基于梯度下降来更新权重，特征尺度差异大时，不同特征的梯度大小会有很大差异，尺度大的特征对应的梯度可能很大，而尺度小的特征对应的梯度可能很小。这会导致梯度更新不稳定，收敛速度变慢，甚至可能陷入局部最优解，影响模型的训练效果和收敛性能。因此一般也需要对特征进行归一化处理。

32、消除特征间尺度差异的一种方法是对数据进行归一化。有两种归一化方法，一种是除以每个特征的标准差，另一种是除以最大值减去最小值。对于每种归一化方法，分别描述一组适用的数据和一组不适用的数据。

除以每个特征的标准差（标准化）

适用的数据

数据近似服从正态分布的数据。当数据呈正态分布时，使用标准差进行归一化能够将数据转换为均值为 0，标准差为 1 的标准正态分布。这样可以使不同特征具有相同的尺度，便于机器学习算法处理。

例如，在测量人的身高和体重数据时，身高和体重可能都近似服从正态分布，通过除以标准差进行归一化后，能更好地用于后续的分析和建模。

不适用的数据

存在离群值的数据。离群值会显著影响标准差的计算，使得标准差变大。当除以这个受离群值影响的标准差时，会导致大部分正常数据被压缩到一个很小的范围内，而离群值仍然相对较大，从而无法有效消除尺度差异。

比如在统计一个班级学生的考试成绩时，如果有个别学生因为特殊原因成绩极高或极低，这些离群值会使标准差变大，归一化效果不佳。

除以最大值减去最小值（最小 – 最大归一化）

适用的数据

数据分布范围已知且相对稳定的数据。这种方法可以将数据缩放到 [0, 1] 区间内，适用于那些需要将数据限制在特定范围内的场景。

例如，在图像像素值处理中，像素值的范围通常是 0 – 255，使用最小 – 最大归一化可以将像素值缩放到 [0, 1] 区间，便于后续的图像处理操作。

不适用的数据

存在新的未知数据超出原数据范围的数据。最小 – 最大归一化是基于已知的最大值和最小值进行计算的，如果后续出现了超出这个范围的数据，归一化后的值可能会超出 [0, 1] 区间，导致数据处理出现问题。

比如在预测股票价格时，历史数据的价格范围是有限的，但未来股票价格可能会突破历史的最大值或最小值，此时使用最小 – 最大归一化就不合适了。

33、考虑变量重要性。a. 如果两个特征完全相同，前面描述的变量重要性方法能否确定其中一个或两个特征是否重要？b. 如果不能，如何修改算法以检测这两个相同的特征是否重要？

a. 前面描述的变量重要性方法可能无法准确确定两个完全相同的特征是否重要。因为在计算变量重要性时，通常是通过改变单个特征的值并观察对分类准确性的影响来判断其重要性。当两个特征完全相同时，随机改变其中一个特征的值和改变另一个特征的值效果是一样的，算法难以区分它们各自对分类的贡献，也就难以确定它们是否重要。

b. 为了修改算法以检测这两个相同的特征是否重要，可以采用以下方法：

合并处理

：将这两个相同的特征视为一个整体进行处理。在训练模型时，不单独对这两个特征进行操作，而是一起改变它们的值，然后观察对分类准确性的影响。如果改变这两个特征的值对分类准确性有显著影响，那么可以认为这两个特征是重要的。

特征衍生

：基于这两个相同的特征创建新的衍生特征，例如计算它们的和、差、积等。然后计算这些衍生特征的重要性，通过衍生特征的重要性来推断原始特征的重要性。

基于相关性分析

：在计算变量重要性之前，先进行特征之间的相关性分析。如果发现两个特征完全相关（即相同），可以选择保留其中一个特征进行变量重要性的计算，或者采用更复杂的方法，如主成分分析（PCA），将相关特征转换为一组不相关的主成分，然后计算主成分的重要性。

34、已知存在“假”类和“真”类的分布，且有几个可以设置阈值的潜在位置（a、b、c、d、e、f、g）。a. 在ROC曲线上绘制点a – g。b. 如果“真”类是有毒蘑菇，你会在哪个字母处设置阈值？c. 决策树将如何分割这些数据？


a. 要在ROC曲线上绘制点a - g，需要根据每个阈值对应的真阳性率（TPR）和假阳性率（FPR）来确定位置。真阳性率是指正确分类为“真”类的样本比例，假阳性率是指错误分类为“真”类的样本比例。对于每个阈值，计算相应的TPR和FPR，然后在ROC曲线上找到对应的点。一般来说，随着阈值的变化，TPR和FPR会相应地改变，从而在ROC曲线上形成不同的点。

b. 如果“真”类是有毒蘑菇，我们希望尽可能避免将有毒蘑菇误分类为可食用蘑菇（即尽量减少假阳性）。因此，应该选择一个能使假阳性率尽可能低的阈值。通常，在ROC曲线中，越靠近左下角的点假阳性率越低。所以，需要查看哪个阈值对应的点在ROC曲线上更靠近左下角，就选择该阈值对应的字母。

c. 决策树分割数据的基本思想是找到一个特征和一个阈值，使得分割后的子集具有更高的纯度（即同一类别的样本更集中）。对于给定的数据，决策树会尝试找到一个最佳的分割点，将“假”类和“真”类尽可能分开。具体步骤如下：

1. 遍历所有可能的特征和阈值组合。
2. 对于每个组合，计算分割后的子集的纯度（可以使用基尼不纯度或信息熵等指标）。
3. 选择使子集纯度最高的特征和阈值作为分割点。
4. 递归地对分割后的子集重复上述步骤，直到满足停止条件（如子集的样本数小于某个阈值或子集的纯度达到某个阈值）。

决策树会根据数据的分布和特征来找到最优的分割点。