OCR系统失效与条形码优势解析

1、假设我们正在构建一个光学字符识别（OCR）系统，对于每个字符，我们将该字符的位图作为模板存储起来，并逐像素地将其与读取的字符进行匹配。解释这样的系统何时会失效。为什么条形码阅读器仍在使用？

这样的系统每个字符只有一个模板，无法区分多种字体的字符。有标准化字体如OCR – A和OCR – B用于OCR软件，但仍有局限。条形码阅读器仍在使用是因为读取条形码比读取任意字体、大小和样式的字符，是一种更好（更便宜、更可靠、更普及）的技术。

2、假设我们的任务是构建一个区分垃圾邮件的系统。垃圾邮件中有什么能让我们知道它是垃圾邮件呢？计算机如何通过句法分析检测垃圾邮件？如果检测到垃圾邮件，我们希望计算机怎么做——自动删除、移到不同文件，还是仅在屏幕上高亮显示？

通常，基于文本的垃圾邮件过滤器会检查特定单词和符号的有无。像

opportunity
、

Viagra
、

dollars
等单词以及

$
、

!
等字符会增加邮件是垃圾邮件的概率，这些概率是从用户之前标记为垃圾邮件的过往邮件训练集中学习得到的。

垃圾邮件过滤器并非 100% 可靠，可能会出现分类错误。将正常邮件误判为垃圾邮件的后果比未过滤到垃圾邮件更严重。因此，系统认为是垃圾邮件的邮件不应自动删除，尤其是在使用垃圾邮件过滤器的早期，系统尚未充分训练时，应将其留存，以便用户按需查看。

3、在购物篮分析中，我们想找出两个商品 X 和 Y 之间的依赖关系。给定一个客户交易数据库，我们如何找出这些依赖关系？如何将此方法推广到处理多于两个商品的情况？

要找出两个商品 X 和 Y 之间的依赖关系，可计算规则 X → Y 的支持度和置信度。支持度显示规则的统计显著性，置信度显示规则的强度。公司设定最小支持度和置信度值，在数据库中搜索支持度和置信度更高的规则。

若 X 和 Y 相互独立，提升度接近 1；若 P(Y|X) 和 P(Y) 不同，说明两者存在依赖关系：

提升度大于 1 时，X 使 Y 更可能出现；

提升度小于 1 时，有 X 会使 Y 更不可能出现。

将此推广到多于两个商品时，例如对于三个商品集合 {X, Y, Z}，可寻找规则如 X, Z → Y，即 P(Y|X, Z)。

可以使用 Apriori 算法，该算法分两步：

找出频繁项集

（即支持度足够的项集）：

利用如果 {X, Y, Z} 是频繁的，其所有子集 {X, Y}、{X, Z} 和 {Y, Z} 也应是频繁的这一特性，避免对所有项子集进行完全枚举。

将频繁项集转换为置信度足够的规则

：

通过将项拆分为前件和后件两部分。

4、在一份日报中，为政治、体育和艺术这三个类别各找出五篇新闻报道。仔细阅读这些报道，找出每个类别中频繁使用的词汇，这些词汇有助于你区分不同的类别。例如，一篇政治新闻报道可能会包含“政府”“经济衰退”和“国会”等词汇，而一篇艺术新闻报道可能会包含“专辑”“画布”或“剧院”等词汇。也有像“进球”这样含义模糊的词汇。

此问题是一个实践任务，需要你自行在日报中找新闻报道并分析高频词汇，没有直接对应的固定答案。你可按以下步骤完成：

准备一份日报；

分别找出政治、体育、艺术类别的五篇新闻报道；

阅读新闻，统计每个类别中频繁出现的词汇；

注意像“goal”这类有歧义的词汇。

5、如果一张人脸图像是100×100的图像，按行优先顺序排列，这是一个10000维的向量。如果我们将图像向右移动一个像素，在10000维空间中这将是一个非常不同的向量。我们如何构建对这种失真具有鲁棒性的人脸识别器呢？

人脸识别系统的预处理与特征提取

人脸识别系统通常包含以下两个关键步骤：

1. 预处理阶段

归一化

：在识别前对输入图像进行归一化处理。

图像居中

：将人脸图像在画面中居中。

调整大小

：可能对图像进行缩放操作。

定位眼睛

：通常先检测两只眼睛的位置。

平移图像

：根据眼睛位置对图像进行相应平移。

2. 特征提取阶段

某些识别器不直接使用人脸图像的像素值，而是：

提取结构特征

：从图像中提取具有代表性的结构信息。

特征示例

：例如两只眼睛之间的距离与整个脸部大小的比例。

特征优势

：这些特征对以下变化具有不变性：

平移

尺寸变化

6、例如，把“machine”这个单词写十遍。再让一个朋友也写十遍。分析这二十个书写样本，尝试找出能区分你和朋友笔迹的特征，比如笔画类型、弯曲度、环形、点的写法等等。

笔迹分析练习任务

按照题目要求，完成以下步骤：

自己书写部分

– 写十遍“machine”

朋友书写部分

– 让朋友写十遍“machine”

样本观察与分析

– 对总共二十个书写样本进行观察和分析

– 从以下方面入手：

笔画类型

弯曲度

环形结构

点的写法

特征对比

– 找出能够区分自己与朋友笔迹的特征

7、想想你在当地超市的购物情况。你购买的商品之间通常有哪些关联？这些关联如何随季节变化？试着制定一些能解释你购买行为的通用规则。

在超市购物时，商品间常见关联如买啤酒时通常会买薯片，买面包时可能搭配黄油或果酱。

季节对购买行为影响明显：

夏季

天气炎热，人们倾向于购买冰淇淋、冷饮、防晒用品等；

冬季

较为寒冷，会更多地购买热巧克力、暖手宝、厚衣物等。

通用规则可以概括为：

商品互补性规则

：即功能或用途上相互补充的商品常一起购买；

季节需求规则

：根据不同季节的气候特点和生活需求，人们购买相应商品；

习惯偏好规则

：个人长期形成的消费习惯和偏好会影响商品购买组合。

8、假设我们的假设类是一个圆而不是矩形。参数有哪些？在这种情况下如何计算圆假设的参数？如果是椭圆呢？为什么使用椭圆比使用圆更有意义？

对于圆，参数是圆心和半径。需要找到

S

和

G

：

S

是包含所有正例的最小圆。

G

是包含所有正例且不包含负例的最大圆。

S

和

G

之间的任何圆都是一致假设。

对于椭圆，其参数包括：

中心位置

长半轴长度

短半轴长度

椭圆的倾斜角度

使用椭圆更有意义，因为两个轴的尺度不必相同。椭圆在两个轴上的宽度有两个独立参数，而不是单一半径。

例如：价格和发动机功率呈正相关，使用斜椭圆更合适。

9、假设我们的假设不是一个矩形，而是两个（或 m > 1）矩形的并集。这样的假设类有什么优势？证明对于足够大的 m，任何类都可以用这样的假设类来表示。

当只有一个矩形时，所有正实例应形成一个单一的组；而有两个矩形时，正实例可以在输入空间中形成两个可能不相交的簇。

每个矩形对应于两个输入属性的合取，多个矩形对应于析取，任何逻辑公式都可以写成合取的析取形式。

在最坏的情况下（$ m = N $），我们可以为每个正实例设置一个单独的矩形，因此任何类都能用该假设类表示。

10、在许多应用中，错误决策（即误报和漏报）会产生金钱成本，且这两种成本可能不同。假设h位于S和G之间，那么h的位置与这两种成本之间有什么关系？

S不会产生误报，只会产生漏报；同样，G不会产生漏报，只会产生误报。因此，如果误报和漏报的后果同样严重，我们希望h位于S和G的中间；如果误报的成本更高，我们希望h更靠近S；如果漏报的成本更高，h应该更靠近G。

11、在回归分析中，对实际值和估计值之间差值的平方进行求和的误差函数对异常值不稳健。那么，用于实现稳健回归的更好的误差函数是什么？

敏感误差函数是更好的选择。它不受小误差的影响，受大误差的影响也较小，因此对异常值更稳健。在支持向量回归中使用的 – 敏感损失函数，能容忍高达的误差，超出部分的误差呈线性影响而非二次影响，对噪声更具容忍性，还会产生稀疏性。

12、在两类问题中，已知似然比，用似然比表示判别函数。

可以将判别函数定义为判别式是似然比与先验比的乘积；若先验相等，判别式就是似然比。

13、在两类问题中，对数几率被定义为……。用对数几率来表示判别函数。

对数几率是对数似然比与先验比的对数之和。若先验概率相等，判别函数就是对数似然比。

14、有人抛一枚公平的硬币，如果结果是正面，你什么也得不到；否则，你将得到5美元。你愿意花多少钱来玩这个游戏？如果赢的金额是500美元而不是5美元，你又愿意花多少钱来玩这个游戏？

抛公平硬币得到正面和反面的概率均为0.5。

当赢的金额是5美元时，玩这个游戏的期望收益是

$ 0.5 imes 0 + 0.5 imes 5 = 2.5 $ 美元，

所以理论上愿意花不超过2.5美元来玩这个游戏。

当赢的金额是500美元时，期望收益是

$ 0.5 imes 0 + 0.5 imes 500 = 250 $ 美元，

理论上愿意花不超过250美元来玩这个游戏。

15、给定一家商店的以下交易数据，计算“牛奶→香蕉”、“香蕉→牛奶”、“牛奶→巧克力”和“巧克力→牛奶”的支持度和置信度。交易信息如下：交易1：篮子里有牛奶、香蕉、巧克力；交易2：篮子里有牛奶、巧克力；交易3：篮子里有牛奶、香蕉；交易4：篮子里有巧克力；交易5：篮子里有巧克力；交易6：篮子里有牛奶、巧克力。


- 牛奶→香蕉：支持度 = 2/6，置信度 = 2/4
- 香蕉→牛奶：支持度 = 2/6，置信度 = 2/2
- 牛奶→巧克力：支持度 = 3/6，置信度 = 3/4
- 巧克力→牛奶：支持度 = 3/6，置信度 = 3/5

16、在购物篮分析中，若每件售出商品都关联着一个表示顾客对该商品喜爱程度的数字（例如0到10的评分），如何利用这些额外信息来计算向顾客推荐哪种商品？

可按以下步骤利用额外信息计算向顾客推荐的商品：

分析历史数据，找出与顾客已购商品经常一起出现且顾客喜爱度评分高的商品。

计算商品的综合得分，结合商品与已购商品的关联度和喜爱度评分。

优先推荐综合得分高的商品。

还可根据顾客的个人偏好和历史行为，对推荐结果进行个性化调整。

17、已知两个正态分布以及先验概率P(C1)和P(C2)，解析计算贝叶斯判别点。

要找到满足 $ P(C_1|x) = P(C_2|x) $ 的 $ x $。

这是一元二次方程 $ ax^2 + bx + c = 0 $ 的形式，有两个根。

若方差相等，二次项消失，方程只有一个根，即两个后验概率在单个 $ x $ 值处相交。

18、假设一个线性模型，然后添加零均值高斯噪声来生成样本。将样本分为训练集和验证集两部分。使用训练集的一半进行线性回归。计算验证集上的误差。对二次和三次多项式也进行同样的操作。

本题可按以下步骤操作：

构建线性模型，添加零均值高斯噪声生成样本；

将生成的样本分成训练集和验证集；

用训练集的一半进行线性回归；

计算验证集上的误差；

对二次和三次多项式重复步骤3和4。

19、当训练集较小时，方差对误差的贡献可能大于偏差，在这种情况下，即使我们知道某个模型对于该任务来说过于简单，我们可能仍会选择它。请举一个例子。

以用模型拟合图形为例，若图形是复杂的任意形状，需要参数多的复杂模型才能完美拟合数据达到零误差；也可以用简单的矩形模型，虽会有一些误差。

在训练集较小时，若训练实例稍有不同，简单的矩形模型相比复杂模型变化更小，因为简单模型

方差小

。

虽然矩形模型过于简单，可能假设较多、比较僵化，若实际类别并非如此简单可能会失败，但因其

方差小

，受单个实例影响小，所以即使它对任务来说可能太简单，仍会被优先选择。

20、在相关方程中，改变λ对偏差和方差有什么影响？

λ控制平滑度：

– 如果它很大，可能会过度平滑，以增加偏差为代价降低方差；

– 如果它很小，偏差可能较小，但方差会很高。

21、有时数据可能因噪声而包含离群值。我们如何找到它们？

离群值检测

离群值检测基本上意味着找出异常情况。具体方法是：

进行密度估计

检查在估计密度下概率过小的实例

拟合模型类型

参数化模型

：

对整个数据拟合高斯分布

任何概率低或与均值的马氏距离大的实例都可能是离群值

半参数化模型

：

拟合高斯混合模型

检查实例概率是否小

离群值检测方法

可以使用马氏距离或似然

不能

使用后验概率

22、假设我们有两个变量x1和x2，想用它们进行二次拟合，即f(x1, x2) = w0 + w1x1 + w2x2 + w3x1x2 + w4

(x1)^2 + w5

(x2)^2。给定样本，如何求出i从0到5的wi的值？

可以定义新的辅助变量

z1=x1,z2=x2,z3=x1x2,z4=(x1)2,z5=(x2)2z1=x1,z2=x2,z3=x1x2,z4=(x1)2,z5=(x2)2，

然后使用线性回归来学习 $ w_i $，其中 $ i = 0, dots, 5 $。

在五维 $(z_1, z_2, z_3, z_4, z_5)$ 空间中的线性拟合，

对应于二维 $(x_1, x_2)$ 空间中的二次拟合。

23、在回归中，我们发现拟合二次函数等同于拟合一个带有对应输入平方的额外输入的线性模型。在分类中我们也能这样做吗？

我们可以定义对应幂次和交叉项的新辅助变量，然后使用线性模型。例如，定义

$ z_1 = x_1 $

$ z_2 = x_2 $

$ z_3 = x_1 x_2 $

$ z_4 = (x_1)^2 $

$ z_5 = (x_2)^2 $

接着用线性模型学习 $ w_i $（$ i = 0, dots, 5 $）。

五维 $ (z_1, z_2, z_3, z_4, z_5) $ 空间中的线性判别对应二维 $ (x_1, x_2) $ 空间中的二次判别。

不过，二次模型虽然更通用，但需要更大的训练集，在小样本上可能会过拟合。

24、以公路行驶距离为输入，使用多维尺度分析（MDS）绘制你所在州/国家的地图。

要完成此任务，可按以下步骤进行：

收集数据，获取所在州/国家各城市间的公路行驶距离；

对收集到的数据进行预处理，确保数据准确且无缺失值；

选择合适的编程语言和工具库，如 Python 的 Scikit-learn 库来实现 MDS 算法；

将公路行驶距离数据输入到 MDS 算法中进行降维处理，得到各城市在二维空间中的坐标；

利用绘图工具，如 Matplotlib，根据得到的坐标绘制地图。

25、绘制一个二维数据集，使得主成分分析（PCA）和线性判别分析（LDA）能找到相同的理想方向。再绘制一个二维数据集，使得PCA和LDA都找不到理想方向。


对于绘制PCA和LDA能找到相同理想方向的数据集：

可以考虑数据分布为各个类别之间界限清晰，且数据的主要方差方向与类别间的区分方向一致。例如，有两个类别，每个类别中的数据点紧密聚集，且两个类别沿着一条直线分开，这条直线就是数据方差最大的方向，此时PCA和LDA都会找到这个方向作为理想方向。

对于绘制PCA和LDA都找不到理想方向的数据集：

可构建一个数据分布混乱的数据集。比如，多个类别的数据点相互交织、重叠，没有明显的类别区分界限，数据的方差在各个方向上都比较均匀，不存在一个明显的主方向，这样PCA无法找到一个能代表数据主要特征的方向，LDA也难以找到一个有效的类别区分方向。

26、如何将类别信息融入 Isomap 或 LLE 算法，使得同一类别的实例在新空间中被映射到相邻位置？

可以在计算不同类别实例间的距离时加入额外的惩罚项，这样多维缩放（MDS）就会将同一类别的实例映射到相邻的点。

27、讨论一个存在隐藏因素（不一定是线性的）且因子分析有望发挥良好作用的应用场景。

在推荐系统中，可将销售数据可视化为一个矩阵，行代表客户，列代表商品，元素是购买量或客户评分。

该矩阵通常很大且稀疏，不过秩较小，因为数据存在大量依赖关系。例如：

有婴儿的人会购买相似物品

某些商品总是一起购买或从不一起购买

这些规律背后存在少量隐藏因素，使得矩阵秩低。因子分析可用于提取这些隐藏因素或依赖关系，所以在推荐系统这个应用场景中，因子分析有望发挥良好作用。

28、我们可以进行 k – 均值聚类，划分实例，然后在每个组中分别计算 Si。为什么这不是一个好主意？

有两个原因：

一是 k – 均值进行的是

硬划分

，而软划分更好，实例可对多个簇的参数有贡献，实现簇间平滑过渡；

二是 k – 均值使用

欧氏距离

，要求特征尺度相同且独立，而使用 Si 意味着使用

马氏距离

，能处理尺度差异和依赖关系。

29、定义输入为二进制的多元伯努利混合模型，并推导其 EM 算法方程。

当组件为多元伯努利分布时，输入是 $ d $ 维二进制向量。假设各维度相互独立，

E 步

不变。在

M 步

中，对于组件参数 $ p_{ij} $（$ i = 1, dots, k $；$ j = 1, dots, d $），需要进行最大化操作。

30、在什么样的数据场景中，聚类会是回归前的一个好的预处理阶段？

当数据复杂，直接进行回归较困难时，聚类可作为回归前的预处理阶段。

聚类能用于数据探索，帮助理解数据结构；还能将数据映射到新空间，使后续的监督学习（包括回归）更易进行。

例如在客户关系管理场景里，可将客户按人口统计属性和交易情况分为不同群体，以便为不同类型客户制定策略，也能针对未归入大群体的客户制定策略。

聚类后将数据映射到新的

k
维空间，在此空间中学习回归函数，且新空间维度

k
可能大于原始维度

d
。

31、在一些应用中，我们对同一数据有多个视角；例如，在图像聚类中，我们可能有实际图像和一组标签。在这种多模态设置中，我们如何进行聚类？

可以采用以下方法进行聚类：

将所有数据向量连接起来

，当作来自单一源的一个大向量处理。但这种方法理论上不太合适，会使系统更复杂，还需更大样本以确保估计准确。

使用不同的基学习器基于不同数据源分别进行预测

，然后组合这些预测结果。

随机子空间方法

：通过从输入表示中选择随机子集，让分类器使用不同输入特征。该方法能使不同学习者从不同角度看待问题，并可降低“维度灾难”的影响。

使用训练集的不同子集训练不同的基学习器

，可随机抽取训练集，即“装袋法”（Bagging）。

32、如何得到平滑的直方图？

可以在两个最近的区间中心之间进行插值。可以将区间中心视为 $x_t$，将直方图值视为 $r_t$，并使用任何插值方案，如线性或基于核的插值方案。

33、对于数值输入，不采用二元分割，而是使用带有两个阈值和三个分支的三元分割，即 xj < wma、wma ≤ xj < wmb、xj ≥ wmb。请提出一种修改树归纳方法以学习两个阈值 wma 和 wmb 的方案。与二元节点相比，这种节点的优缺点是什么？

对于数值属性，需要尝试所有可能的分割阈值对并选择最佳的。有两个分割时会有三个子节点，计算分割后的熵时，需要对对应三个分支实例的三个集合求和。

特点：

寻找最佳阈值对的复杂度有所变化。

每个节点存储两个阈值而非一个。

有三个分支而非两个。

优点：

一个三元节点可将输入分成三部分，而这需要两个连续的二元节点才能完成。

适用性：

哪种更好取决于具体数据。

若有需要有界区间（如矩形）的假设，三元节点可能更具优势。

34、在回归树中，会在叶节点不计算均值，而是进行线性回归拟合，使叶节点的响应依赖于输入。请为分类树提出类似的方法。

这意味着在每个叶节点，我们将用到达该节点的实例训练一个线性分类器。该线性分类器将为不同的类别生成后验概率，并且这些概率将用于熵的计算。

也就是说，叶节点不必是纯的，即不必只包含一个类别的实例；只要该叶节点中的分类器生成接近 0 或 1 的后验概率就足够了。

35、在构建回归树时，我们可以用中位数代替均值，用最小化绝对误差代替最小化平方误差。为什么在有噪声的情况下这样做有帮助？

在有噪声的情况下，均值容易受到极端值的影响，而中位数受极端值影响较小，能更稳健地反映数据的集中趋势。平方误差会放大极端值的影响，而绝对误差对极端值的敏感性较低，因此：

用中位数代替均值

用最小化绝对误差代替最小化平方误差

有助于减少噪声的干扰。

36、在回归树中，我们如何消除叶节点边界处的不连续性？

可以使用软决策树，因为其门控模型返回概率，会以不同概率遍历所有分支和路径到所有叶节点，并对所有叶节点值进行加权求和，权重等于到达每个叶节点路径上门控值的乘积。这种平均的优点是叶区域之间的边界不再是硬边界，而是有一个逐渐的过渡，从而平滑响应，消除不连续性。

37、假设对于一个分类问题，我们已经有了一个训练好的决策树。除了训练集之外，我们如何利用它来构建一个 k – 近邻分类器？

决策树可进行特征选择，构建时仅使用决策树所用的特征；

同时，每个叶子节点的平均实例数能为确定合适的 k 值提供信息。

38、在多元树中，很可能在每个内部节点处，我们并不需要所有的输入变量。如何在节点处降低维度？

每个子树处理输入空间中的局部区域，该区域可以用少量特征解释。

我们可以仅使用到达该节点的实例子集进行特征选择或提取。

理想情况下，随着树的深度增加，我们预计需要的特征会更少。

39、对于以下每个基函数，描述其非零的区间：a. sin(x1)；b. exp(−(x1 − a)²/c)；c. exp(−∥x − a∥²/c)；d. log(x2)；e. 1(x1 > c)；f. 1(ax1 + bx2 > c)

以下是对给定文本内容调整为

Markdown 格式

的结果：

a. $sin(x_1)$ 非零区间为 $x_1
e kpi$（$k$ 为整数）；

b. $expleft(-frac{(x_1 – a)^2}{c}
ight)$ 非零区间为全体实数；

c. $expleft(-frac{|x – a|^2}{c}
ight)$ 非零区间为全体实数；

d. $log(x_2)$ 非零区间为 $x_2 > 0$；

e. $mathbf{1}(x_1 > c)$ 非零区间为 $x_1 > c$；

f. $mathbf{1}(ax_1 + bx_2 > c)$ 非零区间为 $ax_1 + bx_2 > c$。

40、在梯度下降中对所有的xj使用单一的η有什么含义？

对所有 $ x_j $ 使用单一的 $ eta $ 意味着以相同的尺度进行更新，这反过来意味着所有 $ x_j $ 都处于相同的尺度。

如果不是这样，在训练前对所有 $ x_j $ 进行归一化是个好主意，例如通过 Z-归一化。

需要保存所有输入的缩放参数，以便后续对测试实例也能进行相同的缩放。

41、假设对于单变量 x，当 x ∈ (2, 4) 时属于类别 C1，当 x < 2 或 x > 4 时属于类别 C2。如何使用线性判别式来分离这两个类别？

两种方法

定义一个额外变量 $ z equiv x^2 $，在 $ (z, x) $ 空间中使用线性判别式 $ w_2z + w_1x + w_0 $，这在 $ x $ 空间中对应一个二次判别式；也可以手动编写或用 Sigmoid 函数改写。

在 $ x $ 空间中使用两个线性判别式，一个在 2 处分离，另一个在 4 处分离，然后进行逻辑或运算。

42、在分类问题中，对经过 Sigmoid 函数处理后的结果最小化平方误差之和没有意义。为什么呢？

最小化平方误差之和对应于在高斯输出下最大化对数似然。而在分类问题中，期望输出是 0 或 1，显然不是高斯分布的，而是伯努利分布，因此应最小化交叉熵，它对应于在伯努利输出下最大化对数似然。

43、展示一个计算三个输入奇偶性的感知机。

标题

以下是调整为Markdown格式的内容：


h₁ = s(−x₁ − x₂ + 2x₃ − 1.5) (001)  
h₂ = s(−x₁ + 2x₂ − x₃ − 1.5) (010)  
h₃ = s(2x₁ − x₂ − x₃ − 1.5) (100)  
h₄ = s(x₁ + x₂ + x₃ − 2.5) (111)  
y = s(h₁ + h₂ + h₃ + h₄ − 0.5)

四个隐藏单元对应 (x₁, x₂, x₃) 值中奇偶性为 1 的四种情况，即

001
、

010
、

100
和

111
，然后将它们进行或运算以计算整体输出。