SAS数据建模与模型比较实践

内容分享5小时前发布
0 0 0

1、创建一个名为CreditCards的项目。

在相关软件中创建一个名为

CreditCards

的项目。(具体操作需根据使用的软件,如SAS等,在软件界面中找到创建项目的功能入口,输入项目名称

CreditCards

完成创建)

2、选择元数据顾问选项中的基本选项时,变量的初始测量尺度和角色是如何确定的,以及不同类型变量的测量尺度分配情况是怎样的,对于数值形式的二元目标变量在后续回归节点中有什么处理方式?

当选择基本选项时,初始测量尺度和角色基于变量属性:

如果变量是数值型,其测量尺度指定为

区间

,无论该变量有多少不同的值。例如,数值型二元变量也会初始被赋予区间尺度。

若目标变量是数值形式的二元变量,它将被视为

区间尺度变量

,并在后续节点中按此处理。

若后续节点是回归节点,SAS Enterprise Miner会自动使用

普通最小二乘法回归

,而非通常适用于二元目标变量的

逻辑回归

所有字符变量被分配为

名义测量尺度

所有数值变量被分配为

区间测量尺度

3、打开决策配置步骤的“先验概率”选项卡,并在“调整后的先验”列中输入以下先验概率:级别1为0.024,级别0为0.976。

按照要求,在决策配置步骤的“先验概率”选项卡的“调整后的先验”列中,对应级别1输入

0.024

,对应级别0输入

0.976

4、创建一个流程图。在数据分区节点中,将50%的观测值分配给训练集,50%分配给验证集。在流程图上半部分的变量选择节点中,将目标模型属性设置为R – 平方,将使用AOV16变量属性设置为否。在流程图上半部分的变量转换节点中,将区间输入属性设置为最优分箱,并将分类输入属性设置为虚拟指标。在流程图下半部分的变量选择节点中,将目标模型属性设置为R – 平方,将使用AOV16变量属性设置为是。在流程图下半部分的变量转换节点中,将区间输入属性设置为最佳,并将分类输入属性设置为虚拟指标。在两个回归节点中,将选择模型属性设置为逐步回归,将选择标准设置为验证误差。按顺序运行所有节点。然后打开模型比较节点的结果窗口,检查累积捕获响应百分比图,并初步评估哪个模型更好——是流程图上半部分节点序列生成的模型,还是下半部分生成的模型?使用一个表格,按区间/百分位数计算响应百分比、累积响应百分比、捕获响应百分比、累积捕获响应、提升度和累积提升度。

本题主要是一个操作流程的描述,需要按照以下步骤完成:

创建流程图。

配置数据分区节点:

– 将50%的观测值分配给训练集。

– 50%分配给验证集。

配置上半部分变量选择节点:

– 目标模型属性设为R – 平方。

– 使用AOV16变量属性设为否。

配置上半部分变量转换节点:

– 区间输入属性设为最优分箱。

– 分类输入属性设为虚拟指标。

配置下半部分变量选择节点:

– 目标模型属性设为R – 平方。

– 使用AOV16变量属性设为是。

配置下半部分变量转换节点:

– 区间输入属性设为最佳。

– 分类输入属性设为虚拟指标。

配置两个回归节点:

– 选择模型属性设为逐步回归。

– 选择标准设为验证误差。

按顺序运行所有节点。

打开模型比较节点的结果窗口,检查累积捕获响应百分比图,初步评估上下半部分生成模型的优劣。

使用给定表格,按区间/百分位数计算响应百分比、累积响应百分比、捕获响应百分比、累积捕获响应、提升度和累积提升度。

具体操作需结合相应的软件工具(如SAS Enterprise Miner)来完成。在实际操作中,要依据软件界面准确找到各节点并进行属性设置,运行节点后查看结果并进行计算。

5、1. 使用SAS数据集BookData1创建一个数据源。使用高级元数据顾问选项创建元数据。通过将类别级别计数阈值属性设置为5来定制元数据。将变量EVENT的角色设置为目标。在决策配置步骤的先验概率选项卡中,将级别1的调整后先验设置为0.052,级别0的调整后先验设置为0.948。2. 创建如下流程:对数据进行分区,使得60%的记录用于训练,30%用于验证,10%用于测试。3. 在决策树(1)节点中将名义准则属性设置为ProbChisq,在决策树(2)节点中将其设置为Entropy,在决策树(3)节点中将其设置为Gini。在所有三个决策树节点中将子树方法属性设置为评估,评估度量属性设置为决策。使用给定的决策权重。4. 运行三个决策树节点,然后运行模型比较节点。5. 打开模型比较节点的结果窗口,比较三个模型的累积捕获响应百分比。6. 运行SAS代码节点。打开代码编辑器窗口并输入以下代码:7. 输入打印三个数据集Train、Validate和Test所需的额外SAS代码行。运行代码并检查结果。8. 就累积捕获响应百分比而言,哪个决策树更好?

模型比较步骤说明

需要按照题目步骤操作后,通过打开

模型比较节点的结果窗口

,对比三个决策树模型的

累积捕获响应百分比




累积捕获响应百分比更高

的决策树模型为更优模型。

具体哪个决策树更好,需根据实际操作得出的结果进行判断。

6、使用SAS数据集Ch5_Exdata创建一个数据源。使用高级元数据顾问选项来创建元数据。通过将类别级别计数阈值属性设置为8来自定义元数据。将变量EVENT的角色设置为目标变量。在决策配置步骤的先验概率选项卡中,将级别1的调整后先验概率设置为0.052,将级别0的调整后先验概率设置为0.948。

该问题要求按照特定步骤创建数据源并进行相关设置,具体操作步骤如下:

创建一个数据源,使用SAS数据集

Ch5_Exdata

在创建元数据时,选择

高级元数据顾问

选项。

点击

自定义

,将

类别级别计数阈值

属性设置为

8

将变量

EVENT

的角色设置为目标变量。

转到

决策配置步骤



先验概率

选项卡,将:

– 级别

1

的调整后先验概率设置为

0.052



– 级别

0

的调整后先验概率设置为

0.948

7、对数据进行划分,使得60%的记录用于训练,30%用于验证,10%用于测试。

从工具栏中将数据划分节点拖到图表工作区。

连接到输入数据节点并选中它。

在属性面板中设置分区方法(如对于二元目标可设为分层抽样)。

在数据集分配属性下重置训练、验证和测试属性:

训练:60%

验证:30%

测试:10%

8、在流程中添加一个数据分区节点,并将40%的记录分配给训练集,30%分配给验证集,30%分配给测试集。

按照要求在流程中添加数据分区节点

在该节点的设置中,将训练集的比例设置为

40%

验证集的比例设置为

30%

测试集的比例设置为

30%

9、在流程中添加一个回归节点,并设置以下属性:a. 将选择模型属性设置为向前选择;b. 将选择标准设置为施瓦茨贝叶斯准则;c. 将使用选择默认值属性设置为是。

在流程中添加回归节点后,按照要求依次将:


Selection Model

属性设置为

Forward


Selection Criterion

属性设置为

Schwarz Bayesian Criterion


Use Selection Defaults

属性设置为

Yes

10、运行回归节点时会进行哪些操作,以及根据输入变量数量不同回归分析的操作步骤分别是什么?

当运行回归节点时,它会为训练、验证和测试数据集中的每条记录计算目标变量的预测值。在本案例中,目标的预测值为

P_LDELBAL

,这个新变量会被添加到三个数据集中。

在进行回归分析时,根据输入变量数量的不同有不同的操作步骤:

若输入变量数量适中:


预处理数据



– 消除明显不相关的变量。

– 在适当情况下将具有过多水平的名义尺度输入转换为数值区间尺度输入。

– 必要时从原始变量创建复合变量。


使用 SAS Enterprise Miner 执行以下任务



– 插补缺失值。

– 转换输入变量。

– 将建模数据集划分为训练、验证和测试样本(数据足够大时)。

– 使用逐步选项运行回归节点等任务。

若输入变量数量较多:


预处理数据



– 预处理步骤与输入变量数量适中时类似。

– 可根据需要组合变量。


使用 SAS Enterprise Miner 执行以下任务



– 插补缺失值。

– 进行初步变量选择。

– 对分类变量进行分组(合并水平)。

– 转换区间尺度输入。

– 将数据集划分为训练、验证和测试样本等任务。

11、完成以下任务:a. 使用数据集Ch7_Exercise创建一个数据源。b. 对数据集进行分区,使得50%的观测值分配给训练集,30%分配给验证集,20%分配给测试集。c. 使用高级元数据顾问选项,并通过将类级别计数阈值属性设置为5进行自定义。d. 将变量Event的角色设置为目标。e. 在数据源向导中,当提示进行决策处理时选择否。f. 通过将子树方法属性设置为评估和评估度量属性设置为均方误差来开发决策树。g. 使用梯度提升节点开发另一个模型。h. 使用测试数据比较两个模型的累积提升和累积捕获率。

以下是完成上述任务的详细步骤:


创建数据源



– 打开相关的数据分析软件(如SAS Enterprise Miner等)。

– 找到创建数据源的功能入口。

– 选择使用数据集Ch7_Exercise来创建数据源。


数据分区



– 在流程中添加数据分区节点。

– 配置该节点,将50%的观测值分配给训练集,30%分配给验证集,20%分配给测试集。


自定义元数据



– 使用高级元数据顾问选项。

– 在元数据设置中,将类级别计数阈值属性设置为5。


设置变量角色



– 找到变量Event。

– 将其角色设置为目标。


数据源向导决策处理



– 在数据源向导中,当出现决策处理的提示时,选择“否”。


开发决策树



– 在流程中添加决策树节点。

– 配置决策树节点的属性,将子树方法属性设置为“评估”,评估度量属性设置为“均方误差”。

– 运行决策树节点以开发模型。


开发梯度提升模型



– 在流程中添加梯度提升节点。

– 对梯度提升节点进行必要的参数设置(可根据具体情况调整)。

– 运行梯度提升节点以开发模型。


比较模型指标



– 使用测试数据集。

– 找到用于比较累积提升和累积捕获率的功能(通常在模型评估相关的模块中)。

– 分别选择决策树模型和梯度提升模型进行比较,以观察两个模型在累积提升和累积捕获率方面的表现。

12、在梯度提升、决策树、神经网络、逻辑回归和集成模型这五个模型中,你会推荐哪个模型?为什么?

推荐梯度提升模型。原因是通过比较梯度提升和决策树模型从第15百分位起的

累积提升率



累积捕获率

,发现梯度提升模型比决策树模型的预测效果略好。

虽然没有直接将梯度提升模型与神经网络、逻辑回归和集成模型进行对比,但仅从与决策树模型的比较结果来看,梯度提升模型在预测方面表现更优,所以推荐梯度提升模型。

13、在谷歌搜索中分别输入“Economy”(经济)、“GDP”(国内生产总值)、“Unemployment Rate”(失业率)和“European Debt”(欧洲债务)这些词来收集URL。分别搜索每个词,并为每个词收集5个或10个链接。

此问题需要手动在谷歌搜索中分别输入指定词汇,然后为每个词汇收集5个或10个搜索结果链接,由于无法实际进行搜索操作,不能直接给出具体链接。

操作步骤为:

打开谷歌搜索引擎。

依次输入以下词汇进行搜索:

– “Economy”

– “GDP”

– “Unemployment Rate”

– “European Debt”

每次搜索后从搜索结果中选取5个或10个链接记录下来。

14、在SAS Enterprise Miner中创建一个基于SAS数据集的数据源,并按要求设置元数据顾问选项和变量角色,要求使用SAS数据集“Ch2_Clus_Data2”创建数据源,选择“Basic”作为元数据顾问选项,并将变量“Cancel”的角色更改为“Target”,请描述具体步骤。

创建数据源的步骤

创建数据源的步骤如下:

打开一个现有的项目。在项目面板中右键单击“Data Sources”,选择“Create Data Source”,此时数据源向导窗口将打开。

若在项目中使用SAS数据集,在“Source”框中使用默认值“SAS Table”,然后点击“Next”。接着会弹出另一个窗口,提示输入SAS数据集的位置。点击“Browse”,会打开一个显示库引用列表的窗口。

输入事务数据集的名称(例如“TRANSACT”),然后点击“Next”,此时“Table Properties”表将打开。在“Source”文本框中输入数据类型,由于此示例中的事务数据是SAS数据集,所以输入“SAS Table”。点击“Next”按钮,向导将进入步骤2。

输入事务数据集的名称(如“THEBOOK.TRANSACT”)。

再次点击“Next”,向导将进入步骤3。

点击“Next”进入步骤4,选择“Advanced”选项,然后点击“Next”。

在步骤5中,将显示数据集中变量的名称、角色、测量级别等信息。

此外,还可以通过点击工具栏快捷按钮来创建数据源。创建完成后,SAS Enterprise Miner会将所有相关信息(即元数据)作为不同的数据集保存在项目目录中名为“Data Sources”的文件夹中。可以通过点击“Log”标签打开日志窗口,检查库是否成功创建。

创建数据源的具体要求

使用SAS数据集

Ch2_Clus_Data2

创建数据源

选择“Basic”作为元数据顾问选项

将变量“Cancel”的角色更改为“Target”

15、完成以下任务:a. 创建一个决策树模型。b. 创建一个神经网络模型。c. 创建一个逻辑回归模型。d. 使用集成节点将上述三个模型(a、b和c)组合起来。e. 比较1g(梯度提升)和2d(集成)所创建模型的累积提升率和累积捕获率。

模型构建与比较步骤


创建模型


– 创建决策树模型

– 创建神经网络模型

– 创建逻辑回归模型


模型集成


– 使用集成节点将上述三个模型组合起来


模型比较


– 比较梯度提升模型和集成模型的以下指标:

累积提升率

累积捕获率

基于比较结果进一步分析数据以得出结论

16、使用SAS数据集Ch2_Clus_Data2创建一个数据源。a. 为元数据顾问选项选择“基本”。b. 将变量Cancel的角色更改为目标。c. 有多少个输入的测量级别为区间?d. 有多少个输入的测量级别为名义?e. 将数据源重命名为Option1。

需按照步骤实际操作后才能得出有多少个输入的测量级别为

区间



名义

。对于

a、b、e

小问,操作步骤为:

创建数据源时选择 SAS 数据集

Ch2_Clus_Data2

在元数据顾问选项中选择“基本”。

将变量

Cancel

角色改为目标。

最后把数据源重命名为

Option1

17、使用SAS数据集Ch2_Clus_Data2创建一个数据源。a. 为元数据顾问选项选择“高级”。b. 将变量Cancel的角色更改为“目标”。c. 对于“您是否想根据决策的值构建模型?”这个问题选择“否”。d. 有多少个输入的测量级别为区间?e. 有多少个输入的测量级别为名义?f. 将数据源重命名为Option 2。

需在相应软件中按以下步骤操作:

首先使用SAS数据集

Ch2_Clus_Data2

创建一个数据源。

接着为元数据顾问选项选择

“高级”

然后将变量

Cancel

的角色更改为

“目标”

对于

“您是否想根据决策的值构建模型?”

这个问题选择

“否”

之后统计输入的测量级别为

区间



名义

的数量。

最后将数据源重命名为

Option 2

18、使用SAS数据集Ch2_Clus_Data2创建一个数据源。步骤如下:a. 选择元数据顾问选项为高级并点击自定义;b. 将类别级别计数阈值属性更改为3并点击确定;c. 将变量Cancel的角色更改为目标;d. 对于“是否要根据决策的值构建模型?”这个问题选择否。之后回答:c. 有多少个输入的测量级别为区间?d. 有多少个输入的测量级别为名义?e. 将数据源重命名为Option 3。

需按照步骤操作后统计有多少个输入的测量级别为区间和名义

19、创建一个名为Explore的图表。a. 图表中的第一个节点是输入数据(使用数据源Option 2),第二个节点是StatExplore。b. 选择StatExplore节点。在Interval Variable组中,将Interval Variable属性设置为Yes。c. 运行StatExplore节点并打开结果窗口。d. 与目标变量最密切相关的前五个变量是什么?

需要按照题目步骤实际操作

StatExplore

节点并查看结果窗口才能确定与目标变量最密切相关的前五个变量。

20、创建一个图表并将其命名为VarSel2。a. 图表中的第一个节点是输入数据(使用数据源选项2),第二个节点是变量选择。b. 选择变量选择节点并将目标模型属性设置为卡方。c. 将使用Aov16变量属性设置为是。d. 运行变量选择节点。e. 根据此分析,最佳的五个输入是什么?

需按照步骤实际运行变量选择节点并基于分析结果确定最佳的五个输入。

21、使用SAS数据集Attrdata3_New创建一个数据源。

创建数据源的步骤如下:

打开一个现有的项目。

在项目面板中右键单击“Data Sources”,然后选择“Create Data Source”,此时数据源向导窗口将打开。

由于使用的是SAS数据集,在“Source”字段中使用默认值“SAS Table”,然后点击“Next”。

输入事务数据集(这里是Attrdata3_New)的名称,然后点击“Next”。

在“Source”文本框中输入数据类型,因为是SAS数据集,输入“SAS Table”。

点击“Next”,向导将带你进入下一步,按提示依次完成后续步骤,如选择高级选项、设置变量的名称、角色、测量级别等。

22、附加三个神经网络节点和一个自动神经网络节点。将所有三个神经网络节点的模型选择标准设置为平均误差。a. 在第一个神经网络节点中,将架构属性设置为多层感知器,并将目标层激活函数更改为逻辑函数。将隐藏单元数量属性设置为5。打开优化属性并将最大迭代次数属性设置为100。其他网络属性使用默认值。b. 打开结果窗口并检查累积提升和累积捕获响应百分比图表。c. 在第一个神经网络节点中,将目标层误差函数属性更改为伯努利分布,同时保持其他设置与(a)中相同。d. 打开结果窗口并检查累积提升和累积捕获响应百分比图表。将目标层误差函数属性更改为伯努利分布后,模型是否得到了改进?e. 通过点击文件→评分→SAS代码打开结果窗口和评分代码窗口。验证用于计算隐藏单元输出和事件估计概率的公式是否符合预期。f. 在第二个神经网络节点中,将架构属性设置为普通径向等宽,并将隐藏单元数量属性设置为5。其他网络属性使用默认值。g. 在第三个神经网络节点中,将架构属性设置为归一化径向等宽。将隐藏单元数量属性设置为5。其他网络属性使用默认值。h. 按照显示5.91设置自动神经网络节点选项。i. 使用数据挖掘回归节点属性的默认值。附加一个模型比较节点,运行所有模型并比较结果。哪个模型是最好的?

需要按照步骤操作运行所有模型,通过模型比较节点的结果来判断哪个模型最佳。

23、使用%TMFILTER下载网页,并将网页作为文本文件存储在不同的目录中。

实现此需求的步骤如下:

确认SAS环境中已正确安装并配置了SAS Document Conversion Server,因为Text Import Node(%TMFILTER宏的接口)依赖该服务器。

若未设置为客户端 – 服务器模式,可按特定方式使用%TMFILTER宏。

若使用Text Import Node,它可从Web或服务器目录检索文件,创建可被其他文本挖掘节点使用的数据集。可通过该节点指定要下载的网页URL和存储文本文件的不同目录。

利用%TMFILTER宏从不同文件类型(如Microsoft Word、Microsoft Excel、Adobe Acrobat等)创建SAS数据集的功能,将下载的网页内容转换并存储为文本文件。实际操作中,需要根据具体的SAS环境和需求编写相应的SAS代码来调用%TMFILTER宏实现网页下载和文件存储。

© 版权声明

相关文章

暂无评论

none
暂无评论...