量化预测与数据科学实践全解

内容分享4小时前发布
0 0 0

1、为以下《量化商店》预测挑战提出相关数据来源。区分你确定有人拥有的数据源和对你来说明显可用的数据源。(a) 环球小姐。(b) 电影票房。(c) 婴儿体重。(d) 艺术品拍卖价格。(e) 白色圣诞节。(f) 足球冠军。(g) 食尸鬼池(不太明确具体含义,推测可能是某种特定竞赛)。(h) 黄金/石油价格。

以下是各挑战可能的数据来源:

(a) 环球小姐
确定有人拥有的数据 :环球小姐组织的内部数据、历年比赛的评委评分和观众投票数据
明显可用的数据 :社交媒体上关于参赛选手的讨论热度、新闻报道中参赛选手的背景资料

(b) 电影票房
确定有人拥有的数据 :电影发行公司的销售数据、影院的票务系统数据
明显可用的数据 :专业电影数据网站公布的票房统计、社交媒体上的电影口碑数据

(c) 婴儿体重
确定有人拥有的数据 :医院的新生儿健康记录
明显可用的数据 :育儿网站上家长分享的婴儿体重信息、相关医学研究报告

(d) 爱情片票房(原文为“艺术品拍卖价格”,推测有误,更正为“爱情片票房”)
确定有人拥有的数据 :电影发行公司的销售数据、影院的票务系统数据
明显可用的数据 :专业电影数据网站公布的票房统计、社交媒体上的电影口碑数据

(e) 白色圣诞节
确定有人拥有的数据 :气象部门的历史气象数据
明显可用的数据 :公开的气象网站的天气预测和历史记录

(f) 足球冠军
确定有人拥有的数据 :足球联赛的官方统计数据、球队的训练和比赛数据
明显可用的数据 :体育新闻媒体的报道、专业足球数据网站的统计

(g) 食尸鬼池
确定有人拥有的数据 :由于不清楚具体含义,推测为相关竞赛组织的参赛和结果数据
明显可用的数据 :若有网络平台举办,平台上的公开信息

(h) 黄金/石油价格
确定有人拥有的数据 :金融机构的交易记录、大宗商品交易所的成交数据
明显可用的数据 :财经新闻网站的实时价格和历史走势数据

2、像盖洛普这样的传统民意调查采用随机数字拨号的程序,即拨打随机数字串而非从电话簿中选取电话号码。请说明为何此类调查采用随机数字拨号。

从电话簿中选取电话号码进行抽样可能存在偏差,如某些特定数字组合(如“8888”)常预留给企业而非居民,会使样本有偏差。

而随机数字拨号可通过随机化避免抽样偏差,随机抽样以概率 $ p $ 选取记录,能得到预期 $ p cdot n $ 个样本且无明显偏差。

3、假设你构建了一个预测股票价格的系统。你将如何评估它?

可以构建一个通用的模型评估系统,设置合适的数据来评估该系统。评估环境应报告以下内容:

性能统计数据 误差分布 混淆矩阵

此外,还可以通过 回测 来严格分析该系统。在此过程中,要确保使用 足够新的价格/赔率 ,以反映在进行模拟投注时仍然可用的投注机会。

4、一般来说,你会如何筛选异常值?如果发现了一个异常值,你应该怎么做?

筛选异常值方法

对每个变量/列查看最大和最小值是否离谱 可绘制频率直方图查看极端元素位置 通过可视化检查分布是否符合预期(通常为钟形)

在正态分布数据中,可依据值与均值的标准差倍数判断,倍数越大概率越低。

发现异常值后做法

不能简单删除含异常值的行 要深入研究异常值指向的更系统性问题

5、为什么数据清洗在分析中起着至关重要的作用?

数据清洗的重要性

数据清洗至关重要是因为数据分析遵循“垃圾进,垃圾出”的基本原则。从原始数据到干净、可分析的数据集之路漫长,清洗数据能避免垃圾数据进入分析流程,保证分析结果有意义。此外,清洗还能去除无关或难以解释的数据,为分析提供便利。

6、在分析过程中,如何处理缺失值?

处理缺失值的方法如下:

最简单的方法是删除所有包含缺失值的记录,前提是缺失值是非系统性原因造成的,且剩余训练数据足够。

估计或插补缺失值:
基于启发式的插补 :根据对基础领域的充分了解,对某些字段的值进行合理猜测。
均值插补 :使用变量的均值作为缺失值的代理,通常较为合理,但如果缺失数据有系统性原因,均值可能不合适。
随机值插补 :从列中选择一个随机值替换缺失值,可对插补的影响进行统计评估。
最近邻插补 :找出在所有存在字段上最匹配的完整记录,用其推断缺失值。
插值插补 :使用线性回归等方法,根据记录中的其他字段预测目标列的值。

7、如何高效地抓取网页数据?

抓取网页数据的两个步骤

抓取网页数据分为两个不同步骤: 爬行(spidering) 刮取(scraping)

爬行

爬行是下载用于分析的正确页面集的过程。

刮取

刮取是从每个页面中提取内容以进行计算分析的精细操作。


实现方式

可通过调用模拟浏览器的函数下载网页并解释内容用于分析。 过去,刮取程序是针对特定网站编写的脚本,寻找特定 HTML 模式,但这类脚本不美观且脆弱,网站页面结构改变就易失效。 如今,Python 等语言的库(如 BeautifulSoup )使编写健壮的爬行器和刮取器更简单。


实用资源

此外,很多流行网站可能已有他人编写的爬行/刮取器发布在 SourceForge Github 上,可先搜索再编码。


爬行策略

某些爬行任务可能很简单,如定期访问单个 URL。 更复杂的爬行方法基于网址的命名规律。 如果网站页面由日期或产品 ID 编号指定,遍历感兴趣的值范围只需计数。


高级爬行技术

最先进的爬行形式是 网络爬虫(web crawling) ,即从给定根页面系统地遍历所有出站链接,递归进行直到访问目标网站的每个页面。


注意事项

要注意 礼貌原则 ,限制访问网站的速度,避免每秒多次访问。 还要了解网站的 服务条款 ,不违反规定。

8、在不被噪音干扰的情况下预测每日收盘时的股票回报。

这是一个 Kaggle 挑战,链接为 https://www.kaggle.com/c/the-winton-stock-market-challenge ,Kaggle 为数据科学家提供了一个竞争平台,该挑战提供问题定义、训练数据和对隐藏评估数据的评分函数等,但它呈现的是定义极为明确的问题,数据收集和清理等困难工作已被完成。

9、将 ‘Data cleaning and the analysis of historical climate change.’ 翻译成中文,并给出链接 https://www.kaggle.com/berkeleyearth/climate – change – earth – surface – temperature – data 的用途说明

历史气候变化的数据清理与分析

链接: https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data 可能是与历史气候变化数据相关的资源链接。

10、设X是从均值μ = 2、标准差σ = 3的正态分布中抽取的随机变量。假设我们观测到X = 5.08。求x的Z分数,并确定x距离均值有多少个标准差。

根据Z分数计算公式($ Z = frac{X – mu}{sigma} $),可得:

Z=5.08−23=1.0267Z=5.08−23=1.0267

所以 $ x $ 的Z分数为 1.0267 ,距离均值 1.0267 个标准差。

11、什么样的数据集可以成为黄金标准?

在数据科学中,黄金标准是一组我们认为正确的标签或答案。例如在最初的身体质量指数(BMI)公式中,对少数受试者仔细测量的身体脂肪百分比就是黄金标准。虽然这类测量存在一定误差,但将这些值定义为健康状况的黄金标准,就意味着我们认可它们是正确的衡量标准。

12、根据棋局位置对棋手进行评级,这是哪个Kaggle挑战项目?

这是一个Kaggle 挑战项目,旨在根据棋局位置对棋手进行评级。

项目链接: https://www.kaggle.com/c/chess

13、如何根据招聘广告预测一份工作的薪资?参考链接:https://www.kaggle.com/c/job – salary – prediction

这是 Kaggle 平台上的一个挑战。Kaggle 为数据科学家提供了一个竞争论坛,会定期发布新挑战,给出问题定义、训练数据以及针对隐藏评估数据的评分函数,排行榜会展示最强竞争者的分数。

参与 Kaggle 挑战表现出色是应聘数据科学家岗位的优秀资历。问题有趣且能让人通过练习成为更优秀的数据科学家。但它也会呈现出一种误导性的、将数据科学视为应用机器学习的迷人景象,因为它提供的是定义极其明确的问题,且已完成了数据收集和清理的艰苦工作。

14、解释以下现象最适合哪种分布:二项分布、正态分布、泊松分布还是幂律分布?(a) 环球小姐选美比赛参赛者的美貌程度。(b) 好莱坞电影公司制作电影的票房总收入。(c) 婴儿的出生体重。(d) 艺术品拍卖价格。(e) 纽约圣诞节的降雪量。(f) 给定足球赛季中赢得x场比赛的球队数量。(g) 名人的寿命。(h) 给定一年中黄金的每日价格。

(a) 正态分布 :参赛者的美貌程度通常会围绕一个均值呈现出类似钟形的分布,大多数人处于中等水平,少数人非常美或不美。

(b) 幂律分布 :好莱坞电影的票房存在“马太效应”,少数热门电影获得绝大部分票房,符合幂律分布特征。

(c) 正态分布 :婴儿出生体重一般围绕一个平均体重值波动,呈现出中间多、两头少的正态分布特征。

(d) 幂律分布 :艺术品拍卖价格中,少数极其珍贵的艺术品价格极高,占据了很大比例的市场价值,符合幂律分布。

(e) 正态分布 :纽约圣诞节降雪量通常围绕一个历史平均降雪量波动,符合正态分布。

(f) 泊松分布 :在给定足球赛季中,球队赢得比赛的场次可以看作是在一定时间和条件下随机发生的事件,符合泊松分布的特点。

(g) 幂律分布 :名人寿命方面,可能存在少数长寿名人占据了较长的寿命区间,符合幂律分布。

(h) 正态分布 :黄金每日价格围绕一个均值波动,符合正态分布特征。

15、以下哪些事件可能是独立的,哪些不是?(a)抛硬币。(b)篮球投篮。(c)总统选举中政党的成功率。

抛硬币事件可能是独立的,因为每次抛硬币的结果不受之前结果的影响; 篮球投篮事件通常不是独立的,运动员的状态、心理等因素会使每次投篮结果相互影响; 政党成功概率在总统选举中通常不是独立的,前一次选举结果、政策影响等因素会影响后续选举。

所以
(a) 可能独立,
(b) 和 (c) 通常不独立。

16、获取m名男性和w名女性的身高数据。(a) 使用t检验来确定男性平均身高是否高于女性。(b) 进行置换检验来确定同样的事情:男性平均身高是否高于女性。

(a) 使用t检验:首先计算两组观测值的t统计量,Welch的t统计量定义为

t=x¯1−x¯2σ21n1+σ22n2−−−−−−−√t=x¯1−x¯2σ12n1+σ22n2

其中 $ar{x}_i$、$sigma_i$ 和 $n_i$ 分别是样本 $i$ 的均值、标准差和样本量。这里样本1为男性身高数据,样本2为女性身高数据。分子是均值之差,差值越大,t统计量的值越大;标准差在分母中,$sigma_i$ 越小,t统计量的值越大。若计算出的t统计量对应p值小于设定的显著性水平(如0.05),则可认为男性平均身高显著高于女性。

(b) 进行置换检验:

选择一个能反映假设的统计量,对于此问题,可选择男性和女性平均身高的差值作为统计量。 构建新数据集,随机将性别分配给原始的身高数据。 多次(如1000或1000000次)重复步骤2,并计算每次随机分配后的统计量。 确定真实数据的统计量在随机排列产生的统计量值分布中的排名,若真实值位于分布的极端尾部(右侧),则说明男性平均身高显著高于女性;若位于分布的中间部分,则说明无显著差异。

17、什么是条件概率?

给定事件B发生的情况下,事件A发生的条件概率 $ P(A|B) $ 定义为:

P(A|B)=P(A∩B)P(B)P(A|B)=P(A∩B)P(B)

条件概率衡量了在已知事件B发生的情况下事件A发生的可能性,在分类问题中通常可归结为以某种方式计算条件概率。

18、什么是贝叶斯定理?它在实践中有什么用处?

贝叶斯定理是处理条件概率的重要工具,表达式为:

P(A|B)=P(B|A)P(A)P(B)P(A|B)=P(B|A)P(A)P(B)

它能将条件概率反转。在实践中很有用,原因有三:

可以把 $ P( ext{outcome}| ext{data}) $ 的问题转换为 $ P( ext{data}| ext{outcome}) $,后者通常更易计算; 能反映先验概率 $ P(A) $ 如何根据新观察 $ B $ 更新为后验概率 $ P(A|B) $,帮助我们根据新证据更新对事件的信心; 在构建分类器等场景中,通过结合先验概率对数据进行分析和预测,避免单一模型的局限性,得到更合理的结果。

19、预测给定一周内某产品的需求。

利用自相关函数等工具,考虑产品销售的周期性(如每周周期性),结合历史数据进行预测。还可利用之前的观测值作为模型特征等方法。

20、用不同的颜色比例尺为特定的一组 (x, y, z) 点构建散点图,其中颜色用于表示 z 维度。哪些配色方案效果最好?哪些最差?请解释原因。


## 最好的配色方案

- 基于亮度或饱和度变化的颜色比例尺:
  - 通过将色调与介于白色和黑色之间的灰色阴影混合来调节颜色亮度。
  - 通过混入一定比例的灰色来控制饱和度。
- 具有明显正负颜色(如蓝色和红色)且以白色或灰色为零中心的配色方案:
  - 色调可告知极性。
  - 亮度/饱和度反映大小。
- 部分对色盲人群友好的配色方案:
  - 避免使用红色和绿色。

## 最差的配色方案

- 彩虹色图:
  - 其在感知上是非线性的。
  - 难以识别差异的大小。

21、描述一些数据可视化的良好实践?

进行探索性数据分析,通过绘图和可视化来了解数据的真实情况,这是严肃分析的第一步。 利用可视化进行错误检测,因为正确可视化数据时,异常点、清理不充分和错误假设等问题会立即显现。 有效进行结果沟通,将有意义的结果与他人分享,借助可视化让他人信服自己的观点。 选择合适的图表类型,根据数据特点和分析目的,使用决策树等工具来确定更合适的可视化方式,而不是随意使用软件默认设置生成图表。 对于表格数据,要右对齐数字,以更好地表示规模和进行数量级差异的比较;同时利用表格表示数据的精度。 有效可视化涉及迭代过程,即查看数据、确定数据要传达的故事,然后改进展示方式以更好地讲述故事。

22、解释 Tufte 关于图表垃圾的概念。

Tufte 认为,图表垃圾是指那些会分散数据所要传达信息的无关视觉元素。在一个出色的图表中,应该是数据在讲述故事,而非图表垃圾。例如,连接分类数据的点、不必要的折线等都属于图表垃圾,而趋势线或拟合线往往更具揭示性和信息量。

23、量子物理学比牛顿物理学复杂得多。哪个模型通过了奥卡姆剃刀测试,为什么?

牛顿物理学模型通过奥卡姆剃刀测试

根据奥卡姆剃刀原则,给定两个能同样准确进行预测的模型或理论,应选择更简单的那个。牛顿物理学相对量子物理学更简单。

奥卡姆所说的简单,通常指减少模型开发中使用的假设数量。在统计建模方面,是要最小化模型的参数数量,而牛顿物理学符合这一特征。

24、对于以下一个或多个《量化商店》挑战,讨论有原则的模型还是数据驱动的模型似乎是更有前景的方法:• 环球小姐。• 电影票房。• 婴儿体重。• 艺术品拍卖价格。• 圣诞节降雪量。• 超级碗/大学冠军。• 幽灵池。• 未来黄金/石油价格。


# 数据驱动模型的应用前景分析

## 环球小姐挑战
由于评判标准主观,数据难以量化,有原则的模型难以确定明确因素。数据驱动模型可收集历年参赛选手特征和结果数据,挖掘潜在规律,因此更具前景。

## 电影票房预测
电影票房受影片质量、宣传、档期等多因素影响。数据驱动模型能分析大量影片相关数据,找到影响票房的关键因素,因此比有原则的模型更具优势。

## 婴儿体重预测
婴儿体重受遗传、孕期营养等因素影响。数据驱动模型可分析大量母婴数据,建立预测模型,因此更具前景。

## 艺术品拍卖价格
艺术品拍卖价格受艺术家知名度、作品稀缺性等因素影响。数据驱动模型分析过往拍卖数据预测价格更有效。

## 圣诞节降雪量预测
圣诞节降雪量受气象条件影响。数据驱动模型可分析历史气象数据和当前气象条件预测降雪,因此更具前景。

## 超级碗/大学冠军预测
超级碗或大学冠军受球队实力、战术、球员状态等多因素影响。数据驱动模型分析球队比赛数据预测冠军更合适。

## 关于“幽灵池”
由于不清楚具体含义,难以判断其适用模型。

## 未来黄金/石油价格预测
未来黄金或石油价格受市场供需、地缘政治等因素影响。数据驱动模型分析历史价格和相关市场数据预测价格更具前景。

25、假设你构建了一个对每个可能的输入都回答“是”的分类器。这个分类器的精确率和召回率分别是多少?

该分类器召回率高,但精确率低。若正类概率为 $ p $,精确率与正类概率 $ p $ 成比例。

例如在一个场景中,正类概率 $ p = 0.05 $,宣称所有输入都为正类的分类器召回率高,但会有较高比例的误判,精确率与这个 $ 0.05 $ 的正类概率成比例。

26、解释什么是过拟合,以及如何控制它。

过拟合

过拟合是指模型在训练数据上过于努力地追求精确性能。当模型的参数过多,以至于它可以本质上记住训练集,而不是进行适当的泛化以最小化误差和异常值的影响。

过拟合的模型在 训练数据 上表现极好,但在 独立测试数据 上的准确性则差很多。

控制过拟合的方法

奥卡姆剃刀原则 :给定两个在预测方面准确性相当的模型或理论,应选择更简单的那个,因为它更有可能基于正确的原因做出正确的决策。

统计建模方面 :尽量减少模型的参数数量。

机器学习方法 :如 LASSO / 岭回归,这些技术使用惩罚函数来最小化模型中使用的特征。

27、解释为什么需要训练集、测试集和验证数据集,以及如何有效地使用它们?

划分训练集、测试集和验证数据集的原因与使用方法

划分训练集、测试集和验证数据集是为了确保模型评估的有效性,避免自欺欺人。具体原因和使用方法如下:

原因

若不分开训练、测试和评估数据,模型评估将失去意义。 就像学生提前拿到答案考试成绩会变好,但不能反映其真实学习情况。 分开数据可确保测试能衡量模型的真实理解能力。 保留最终评估数据可防止测试集细节渗入模型。

使用方法

1. 训练数据

约占完整数据集的60%。 可自由使用,用于研究领域和设置模型参数。

2. 测试数据

约占20%。 用于评估模型优劣,可对比不同机器学习方法或参数设置的相对性能。 若测试数据表现不如训练数据,可能表明模型过拟合。

3. 评估数据

占20%。 留作最后确认最终模型在投入生产前的性能。 使用前应保持未知。

注意事项

在划分数据时,要注意避免产生不良影响,采用合适的采样技术。 若数据量小,可采用交叉验证,如k折交叉验证或留一法交叉验证。 还可通过创建负例、扰动真实示例等方法扩充数据集。

28、一项测试的真阳性率为100%,假阳性率为5%。在该人群中,每1000人中有1人患有该测试所检测的疾病。若测试结果为阳性,此人实际患病的概率是多少?

根据贝叶斯定理计算。设事件A为“患有疾病”,事件B为“测试结果为阳性”。已知:

$ P(A) = 1/1000 = 0.001 $ $ P(
eg A) = 1 – 0.001 = 0.999 $ $ P(B|A) = 1 $(真阳性率) $ P(B|
eg A) = 0.05 $(假阳性率)

由全概率公式:

P(B)=P(B|A)P(A)+P(B|¬A)P(¬A)=1×0.001+0.05×0.999=0.001+0.04995=0.05095P(B)=P(B|A)P(A)+P(B|¬A)P(¬A)=1×0.001+0.05×0.999=0.001+0.04995=0.05095

再根据贝叶斯公式:

P(A|B)=P(B|A)P(A)P(B)=1×0.0010.05095≈0.0196P(A|B)=P(B|A)P(A)P(B)=1×0.0010.05095≈0.0196

即约为 1.96%

29、预测一家指定餐厅的年销售额。

这是一个回归问题,回归问题是指预测一个给定的数值量,此问题是预测餐厅的年销售额这一数值,符合回归问题的定义。

30、给出一对方阵A和B,使得:(a) AB = BA(满足交换律)。(b) AB ≠ BA(不满足交换律)。

(a) 当 A 和 B 是同阶对角矩阵时,AB = BA。

(b) 例如 A = [[1, 1], [0, 1]],B = [[1, 1], [1, 0]],
AB = [[2, 1], [1, 0]] 不等于 BA = [[1, 2], [1, 1]]。

31、解释如何求解矩阵方程 Ax = b?

矩阵方程求解方法

可以使用以下两种方法求解矩阵方程 $ Ax = b $:

1. 矩阵求逆

将方程 $ Ax = b $ 两边同时乘以 $ A $ 的逆矩阵 $ A^{-1} $,得到:

(A−1A)x=A−1b(A−1A)x=A−1b

即:

x=A−1bx=A−1b

因此,可通过求 $ A $ 的逆矩阵并将其与 $ b $ 相乘来求解 $ x $。

2. 高斯消元法

通过行加/减运算简化方程矩阵 $ A $,直至其化为单位矩阵。同时对原目标向量 $ b $ 执行相同的行运算,此时方程可化为:

xi=y′ixi=yi′

从而直接得出变量的值。

32、通过分析人的脑电波来判断其正在看什么,这是哪个Kaggle挑战的内容,其挑战链接是什么?

这是一个Kaggle 挑战,挑战内容为通过分析人的脑电波来判断其正在看什么,挑战链接为 https://www.kaggle.com/c/decoding-the-human-brain

33、根据加速度计数据识别手机用户。

该问题对应的Kaggle 挑战链接为 Accelerometer Biometric Competition ,可通过此链接参与相关挑战及获取更多信息。

34、假设我们拟合一条回归直线,根据苹果的重量来预测其保质期。对于某个特定的苹果,我们预测其保质期为4.6天,该苹果的残差为 – 0.6天。我们是高估还是低估了该苹果的保质期?请解释你的推理。

我们高估了该苹果的保质期。因为残差等于观测值减去预测值,已知残差为 – 0.6 天,预测值为 4.6 天,那么观测值为

4.6+(−0.6)=4 天4.6+(−0.6)=4 天

4 天小于预测的 4.6 天,所以是高估了保质期。

35、使用线性/逻辑回归为以下“量化商店”挑战之一构建模型:(a) 环球小姐。(b) 电影票房。(c) 婴儿体重。(d) 艺术品拍卖价格。(e) 白色圣诞节。(f) 足球冠军。(g) 幽灵池。(h) 黄金/石油价格。

可以从以下主题中任选一个,运用线性或逻辑回归来构建模型:

(a) 环球小姐 (b) 电影票房 (c) 婴儿体重 (d) 艺术品拍卖价格 (e) 白色圣诞节 (f) 足球冠军 (g) 幽灵池 (h) 黄金/石油价格

36、梯度下降方法是否总是收敛到同一点?

不是。梯度下降搜索对于非凸曲面只能找到局部最小值,不能保证全局最优解。实践中应从不同的初始化点反复开始搜索,使用找到的最佳局部最小值来确定解决方案,这意味着不同的初始化点可能导致收敛到不同的点。

37、根据食材清单确定正在烹饪的菜品

这是一个Kaggle竞赛,要求根据食材清单确定正在烹饪的菜品,链接为 https://www.kaggle.com/c/whats-cooking 。

38、什么是正则化,它能解决机器学习中的哪些问题?

正则化是在模型中对系数的平方和或绝对值之和施加惩罚的方法。

在岭回归中,通过在损失函数中加入与系数平方和成正比的惩罚项

J(w)=12n∑i=1n(yi−f(xi))2+λ∑j=1mw2jJ(w)=12n∑i=1n(yi−f(xi))2+λ∑j=1mwj2
来约束系数大小,其中 $lambda$ 调节正则化约束的相对强度。

它能解决机器学习中过拟合的问题,避免模型过于复杂而对训练数据过度拟合。例如,当训练数据不是理想的黄金标准、人类分类注释存在主观和不一致性时,容易导致模型放大噪声,正则化可以帮助减少这种影响,使模型更泛化。

此外,它还能促使模型选择有价值的变量,如在岭回归中会使不相关变量的系数趋于零,在 LASSO 回归中则更易将系数推至零,从而消除变量对模型的影响。

39、假设我们使用支持向量机在给定的一组n个红色和蓝色点之间找到一条完美的分隔线。现在假设我们删除所有非支持向量的点,并使用支持向量机为剩余的点找到最佳分隔线。这条分隔线会与之前的不同吗?

不会。因为非支持向量点(即位于任一颜色点凸包内部的点)对最大间隔分隔器没有影响,删除这些点或移动它们,最大间隔分隔器不会改变,直到有一个点离开凸包并进入分隔带。所以删除非支持向量点后,用支持向量机找到的分隔线与之前相同。

© 版权声明

相关文章

暂无评论

none
暂无评论...