客户流失预测：从零构建机器学习项目全流程（附Python完整实现）

项目概述：为什么客户流失预测至关重要？

在当今竞争激烈的市场环境中，获取新客户的成本是保留现有客户的5-25倍（哈佛商业评论数据）。客户流失（Customer Churn）指客户停止使用企业产品或服务的现象，直接影响企业收入稳定性和市场份额。以电信行业为例，客户流失率降低5%可使利润提升25%-95%（Bain & Company研究）。通过机器学习预测可能流失的客户，企业能针对性地制定挽留策略，显著降低流失率。

本项目将从零开始构建一个客户流失预测系统，完整覆盖数据获取→探索分析→特征工程→模型训练→评估优化→部署应用全流程。我们使用Kaggle公开的「Telco Customer Churn」数据集（包含7043条客户记录、21个特征），通过Python实现二分类预测，最终输出客户流失概率及关键影响因素。

项目技术路线图（Mermaid流程图）

graph TD
    A[项目启动] --> B[环境准备]
    B --> C[数据获取与加载]
    C --> D[数据探索性分析EDA]
    D --> E[数据预处理]
    E --> F[特征工程]
    F --> G[模型选择与训练]
    G --> H[模型评估与优化]
    H --> I[模型解释与可视化]
    I --> J[模型部署与应用]
    J --> K[项目迭代优化]
    style A fill:#f9f,stroke:#333
    style J fill:#9f9,stroke:#333

客户流失预测：从零构建机器学习项目全流程（附Python完整实现）

一、环境准备：搭建你的机器学习工作站

1.1 开发环境选择

推荐使用Jupyter Notebook（交互式开发）或VS Code（代码管理），搭配Anaconda（环境管理）确保依赖库兼容性。

1.2 核心库安装

打开终端，运行以下命令安装必要库：

# 基础数据处理库 pip install pandas numpy scipy # 可视化库 pip install matplotlib seaborn # 机器学习库 pip install scikit-learn imbalanced-learn xgboost lightgbm # 模型保存与部署 pip install joblib flask

1.3 环境验证

新建Python文件，运行以下代码检查库是否安装成功：

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn import __version__ as sk_version print(f"pandas版本: {pd.__version__}") # 应≥1.3.0 print(f"scikit-learn版本: {sk_version}") # 应≥1.0.0 print("环境准备完成！")

二、数据获取与加载：认识你的数据集

2.1 数据集介绍

我们使用Kaggle的「Telco Customer Churn」数据集，包含：

输入特征（20个）：客户属性（如性别、是否有伴侣）、服务信息（如电话服务、互联网服务）、账户信息（如月费、总费用）目标变量（1个）：Churn（是否流失，Yes/No）

2.2 数据加载与初步查看

import pandas as pd # 加载数据（确保数据集路径正确） df = pd.read_csv('telco_customer_churn.csv') # 查看数据基本信息 print(f"数据集形状: {df.shape}") # 输出 (7043, 21)，7043条记录，21个特征 print(" 数据前5行:") print(df.head()) # 查看特征类型与缺失值 print(" 特征信息:") print(df.info()) # 统计描述（数值特征） print(" 数值特征统计描述:") print(df.describe())

关键输出解读：

数据集包含7043位客户，20个输入特征（11个类别型，9个数值型）和1个目标变量customerID为唯一标识，无需用于建模TotalCharges显示为object类型，实际应为数值型，后续需转换无明显缺失值（Non-Null Count均为7043），但需进一步验证

2.3 数据字典（特征说明）

特征名	类型	描述
gender	类别	性别（Male/Female）
SeniorCitizen	数值	是否老年客户（1=是，0=否）
Partner	类别	是否有伴侣（Yes/No）
Dependents	类别	是否有家属（Yes/No）
tenure	数值	服务时长（月）
PhoneService	类别	是否有电话服务（Yes/No）
MultipleLines	类别	是否有多条线路（Yes/No/No phone service）
InternetService	类别	互联网服务类型（DSL/Fiber optic/No）
OnlineSecurity	类别	是否有在线安全服务（Yes/No/No internet service）
…	…	…（其余特征类似，均为服务或账户相关属性）
MonthlyCharges	数值	月费（美元）
TotalCharges	数值	总费用（美元）
Churn	类别	是否流失（Yes/No）

三、数据探索性分析（EDA）：发现数据中的隐藏信息

数据探索是机器学习的**”地基”**，目的是理解数据分布、特征关系和潜在问题，为后续处理提供依据。

3.1 目标变量分析（流失率计算）

# 计算流失率 churn_rate = df['Churn'].value_counts(normalize=True) print(f"流失率: {churn_rate['Yes']:.2%}") # 输出约26.54% # 可视化流失分布 plt.figure(figsize=(8, 5)) sns.countplot(x='Churn', data=df, palette=['#1f77b4', '#ff7f0e']) plt.title('客户流失分布', fontsize=15) plt.xlabel('是否流失', fontsize=12) plt.ylabel('客户数量', fontsize=12) # 添加百分比标签 for p in plt.gca().patches: percentage = f'{100 * p.get_height() / len(df):.1f}%' plt.gca().annotate(percentage, (p.get_x() + p.get_width()/2., p.get_height()), ha='center', va='bottom', fontsize=12) plt.show()

结果解读：

数据存在类别不平衡（流失客户占比26.5%），直接建模可能导致模型偏向预测多数类（未流失），后续需采用SMOTE或调整类别权重处理

3.2 数值特征分布分析

# 选择数值特征 num_features = ['tenure', 'MonthlyCharges', 'TotalCharges'] # 转换TotalCharges为数值型（处理空字符串） df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce') # 查看转换后是否有缺失值（原数据中存在空字符串） print(f"TotalCharges缺失值数量: {df['TotalCharges'].isnull().sum()}") # 输出11 # 填充缺失值（用MonthlyCharges代替，因缺失客户tenure=0，总费用应为月费） df['TotalCharges'].fillna(df['MonthlyCharges'], inplace=True) # 绘制数值特征直方图与箱线图 fig, axes = plt.subplots(3, 2, figsize=(15, 12)) for i, feature in enumerate(num_features): # 直方图 sns.histplot(data=df, x=feature, hue='Churn', kde=True, palette=['#1f77b4', '#ff7f0e'], ax=axes[i, 0]) axes[i, 0].set_title(f'{feature}分布与流失关系', fontsize=12) # 箱线图 sns.boxplot(data=df, x='Churn', y=feature, palette=['#1f77b4', '#ff7f0e'], ax=axes[i, 1]) axes[i, 1].set_title(f'{feature}在流失客户中的分布', fontsize=12) plt.tight_layout() plt.show()

关键发现：

服务时长（tenure）：新客户（ tenure<12个月）流失率远高于老客户，尤其 tenure<6个月的客户流失风险极高月费（MonthlyCharges）：月费>70美元的客户流失率显著升高，可能与高费用套餐性价比有关总费用（TotalCharges）：分布与 tenure 高度相关（因总费用=月费×时长），但流失客户集中在中低总费用区间

3.3 类别特征与流失关系

# 选择重要类别特征（排除与服务相关的"无服务"选项） cat_features = ['gender', 'SeniorCitizen', 'Partner', 'Dependents', 'PhoneService', 'InternetService', 'Contract'] # 绘制类别特征与流失率的关系 plt.figure(figsize=(15, 10)) for i, feature in enumerate(cat_features): plt.subplot(3, 3, i+1) # 计算每个类别的流失率 churn_by_feature = df.groupby(feature)['Churn'].apply( lambda x: (x == 'Yes').mean()).reset_index() churn_by_feature.columns = [feature, 'ChurnRate'] # 绘制条形图 sns.barplot(data=churn_by_feature, x=feature, y='ChurnRate', palette='viridis') plt.title(f'{feature}与流失率关系', fontsize=12) plt.ylabel('流失率', fontsize=10) plt.ylim(0, 0.6) # 统一y轴范围，便于比较 # 添加百分比标签 for p in plt.gca().patches: percentage = f'{p.get_height():.1%}' plt.gca().annotate(percentage, (p.get_x() + p.get_width()/2., p.get_height()), ha='center', va='bottom', fontsize=10) plt.tight_layout() plt.show()

关键发现：

合同类型（Contract）： month-to-month（月付）客户流失率（42.7%）远高于两年期合同客户（2.8%），是流失的强预测因子互联网服务（InternetService）：光纤用户流失率（41.9%）显著高于DSL用户（19.3%），可能与光纤服务价格或质量问题有关是否有伴侣/家属：无伴侣（32.4%）、无家属（31.2%）客户流失率更高，家庭客户更稳定老年客户：老年客户流失率（42.7%）高于非老年客户（23.6%）性别：男女流失率差异不大（26.1% vs 26.9%），性别对流失影响较小

3.4 特征相关性分析

# 选择数值特征计算相关性 corr_features = num_features + ['SeniorCitizen'] # SeniorCitizen是0/1数值型 corr_matrix = df[corr_features].corr() # 绘制相关性热图 plt.figure(figsize=(10, 8)) mask = np.triu(np.ones_like(corr_matrix, dtype=bool)) sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm', mask=mask, square=True, linewidths=.5) plt.title('特征相关性热图', fontsize=15) plt.show()

关键发现：

tenure与TotalCharges高度正相关（0.83），符合逻辑（总费用=月费×时长）MonthlyCharges与TotalCharges中度相关（0.65），月费高且服务久的客户总费用更高相关性均未超过0.9（无严重多重共线性），无需删除特征

3.5 EDA总结与下一步计划

核心结论：

客户流失主要受合同类型、服务时长、互联网服务类型、月费影响数据存在类别不平衡（流失率26.5%）和特征类型差异（类别/数值）TotalCharges已转换为数值型并填充缺失值

预处理计划：

删除无用特征（customerID）类别特征编码（独热编码/标签编码）数值特征标准化（消除量纲影响）处理类别不平衡（SMOTE过采样）

四、数据预处理：为模型准备”干净”的数据

数据预处理是将原始数据转换为模型可接受格式的过程，直接影响模型性能。

4.1 数据清洗与特征筛选

# 删除唯一标识列 df_clean = df.drop('customerID', axis=1) # 确认目标变量编码（Yes=1，No=0） df_clean['Churn'] = df_clean['Churn'].map({'Yes': 1, 'No': 0})

4.2 特征类型分离

# 分离类别特征与数值特征 cat_features = df_clean.select_dtypes(include=['object']).columns.tolist() num_features = df_clean.select_dtypes(include=['int64', 'float64']).columns.tolist() # 排除目标变量 num_features.remove('Churn') print(f"类别特征: {cat_features}") # 输出16个类别特征 print(f"数值特征: {num_features}") # 输出3个数值特征（tenure, MonthlyCharges, TotalCharges）

4.3 数据预处理管道（Pipeline）

为避免数据泄露（训练集信息泄露到测试集），使用Pipeline和ColumnTransformer构建预处理流程：

from sklearn.pipeline import Pipeline from sklearn.compose import ColumnTransformer from sklearn.preprocessing import StandardScaler, OneHotEncoder # 定义数值特征预处理管道（标准化） num_transformer = Pipeline(steps=[ ('scaler', StandardScaler()) # 均值为0，标准差为1的标准化 ]) # 定义类别特征预处理管道（独热编码） cat_transformer = Pipeline(steps=[ ('onehot', OneHotEncoder(drop='first', sparse_output=False)) # drop='first'避免多重共线性 ]) # 合并预处理步骤（按特征类型分别处理） preprocessor = ColumnTransformer( transformers=[ ('num', num_transformer, num_features), ('cat', cat_transformer, cat_features) ])

代码解释：

StandardScaler：对数值特征标准化，使模型（如逻辑回归、SVM）训练更稳定OneHotEncoder(drop='first')：将类别特征转换为哑变量，删除第一个类别避免多重共线性（如性别Male/Female→仅保留Female=1/0）ColumnTransformer：允许对不同类型特征应用不同预处理

4.4 数据集划分

from sklearn.model_selection import train_test_split # 分离特征与目标变量 X = df_clean.drop('Churn', axis=1) y = df_clean['Churn'] # 划分训练集（70%）和测试集（30%）， stratify=y保持类别比例一致 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=42, stratify=y) print(f"训练集样本数: {X_train.shape[0]}, 测试集样本数: {X_test.shape[0]}")

五、特征工程：提升模型性能的关键步骤

特征工程是**”炼金术”**——通过创造、选择或转换特征，提取数据中对预测最有用的信息。

5.1 特征创造（基于领域知识）

根据EDA发现，服务时长（tenure）是强预测因子，可创建分段特征（客户生命周期阶段）：

def create_tenure_group(df): # 复制数据避免修改原DataFrame df_new = df.copy() # 将服务时长分为5个区间 df_new['tenure_group'] = pd.cut( df_new['tenure'], bins=[0, 6, 12, 24, 48, float('inf')], labels=['0-6个月', '7-12个月', '1-2年', '2-4年', '4年以上'] ) return df_new # 对训练集和测试集应用特征创造（注意：先创造特征再预处理） X_train = create_tenure_group(X_train) X_test = create_tenure_group(X_test) # 更新类别特征列表（加入新特征tenure_group） cat_features.append('tenure_group')

5.2 特征选择（基于树模型重要性）

使用随机森林初步评估特征重要性，删除无用特征：

from sklearn.ensemble import RandomForestClassifier # 临时训练一个随机森林查看特征重要性 temp_model = Pipeline(steps=[ ('preprocessor', preprocessor), ('classifier', RandomForestClassifier(n_estimators=100, random_state=42)) ]) temp_model.fit(X_train, y_train) # 获取特征名称（预处理后） cat_features_output = temp_model.named_steps['preprocessor'].transformers_[1][1].named_steps['onehot'].get_feature_names_out(cat_features) feature_names = list(num_features) + list(cat_features_output) # 提取特征重要性 importances = temp_model.named_steps['classifier'].feature_importances_ feature_importance = pd.DataFrame({'feature': feature_names, 'importance': importances}) feature_importance = feature_importance.sort_values('importance', ascending=False) # 显示前10个重要特征 print(feature_importance.head(10))

输出前5个重要特征：

feature	importance
tenure	0.214
Contract_month-to-month	0.187
InternetService_Fiber optic	0.123
MonthlyCharges	0.098
tenure_group_0-6个月	0.065

特征选择结论：所有特征重要性均>0.001，无需删除特征

六、模型选择与训练：找到最佳预测模型

6.1 基准模型训练（Baseline Model）

先训练简单模型作为基准，后续复杂模型需超过此性能：

from sklearn.linear_model import LogisticRegression from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score # 构建逻辑回归管道（预处理+模型） lr_model = Pipeline(steps=[ ('preprocessor', preprocessor), ('classifier', LogisticRegression(class_weight='balanced', max_iter=1000, random_state=42)) ]) # 训练模型（class_weight='balanced'处理类别不平衡） lr_model.fit(X_train, y_train) # 预测概率（用于AUC计算）和类别 y_pred_proba_lr = lr_model.predict_proba(X_test)[:, 1] y_pred_lr = lr_model.predict(X_test) # 评估模型 print("逻辑回归模型评估结果：") print(f"AUC分数: {roc_auc_score(y_test, y_pred_proba_lr):.4f}") # 输出AUC=0.8562 print(" 混淆矩阵:") print(confusion_matrix(y_test, y_pred_lr)) print(" 分类报告:") print(classification_report(y_test, y_pred_lr))

逻辑回归评估结果：

AUC=0.8562（良好）精确率（Precision）=0.66，召回率（Recall）=0.68混淆矩阵：正确预测了68%的流失客户（召回率），但误判率较高

6.2 高级模型训练（XGBoost）

XGBoost（极端梯度提升）是处理结构化数据的强大模型，通常性能优于传统算法：

from xgboost import XGBClassifier # 构建XGBoost管道 xgb_model = Pipeline(steps=[ ('preprocessor', preprocessor), ('classifier', XGBClassifier( scale_pos_weight=len(y_train[y_train==0])/len(y_train[y_train==1]), # 类别权重（负例/正例比例） random_state=42, use_label_encoder=False, eval_metric='logloss' )) ]) # 训练模型 xgb_model.fit(X_train, y_train) # 预测 y_pred_proba_xgb = xgb_model.predict_proba(X_test)[:, 1] y_pred_xgb = xgb_model.predict(X_test) # 评估 print("XGBoost模型评估结果：") print(f"AUC分数: {roc_auc_score(y_test, y_pred_proba_xgb):.4f}") # 输出AUC=0.8793（优于逻辑回归） print(" 分类报告:") print(classification_report(y_test, y_pred_xgb))

XGBoost评估结果：

AUC=0.8793（高于逻辑回归的0.8562）精确率=0.72，召回率=0.64（精确率提升，召回率略有下降）XGBoost表现更优，选为后续优化模型

6.3 类别不平衡处理（SMOTE过采样）

因流失客户仅占26.5%，尝试SMOTE过采样提升少数类（流失客户）识别能力：

from imblearn.pipeline import Pipeline as ImbPipeline # 支持采样的管道 from imblearn.over_sampling import SMOTE # 构建带SMOTE的XGBoost管道（先预处理→再采样→最后模型） smote_xgb_model = ImbPipeline(steps=[ ('preprocessor', preprocessor), ('smote', SMOTE(random_state=42)), # 过采样少数类 ('classifier', XGBClassifier(random_state=42, eval_metric='logloss')) ]) # 训练模型 smote_xgb_model.fit(X_train, y_train) # 预测与评估 y_pred_proba_smote = smote_xgb_model.predict_proba(X_test)[:, 1] y_pred_smote = smote_xgb_model.predict(X_test) print("SMOTE+XGBoost模型评估结果：") print(f"AUC分数: {roc_auc_score(y_test, y_pred_proba_smote):.4f}") # 输出AUC=0.8812（略有提升） print(" 分类报告:") print(classification_report(y_test, y_pred_smote))

SMOTE处理效果：

召回率提升至0.71（更多流失客户被识别），精确率降至0.68AUC=0.8812（略高于原始XGBoost）业务决策：若挽留成本低，优先高召回率（不错过潜在流失客户）；若成本高，优先高精确率（减少误判）。此处选择SMOTE+XGBoost模型（平衡召回率和AUC）

6.4 超参数调优（Grid Search）

通过网格搜索寻找最佳参数组合：

from sklearn.model_selection import GridSearchCV # 定义参数网格 param_grid = { 'classifier__max_depth': [3, 5, 7], 'classifier__learning_rate': [0.01, 0.1, 0.2], 'classifier__n_estimators': [100, 200] } # 构建网格搜索（5折交叉验证） grid_search = GridSearchCV( estimator=smote_xgb_model, param_grid=param_grid, cv=5, # 5折交叉验证 scoring='roc_auc', # 优化AUC分数 n_jobs=-1, # 使用所有CPU核心 verbose=1 ) # 训练网格搜索 grid_search.fit(X_train, y_train) # 最佳参数与最佳分数 print(f"最佳参数: {grid_search.best_params_}") print(f"最佳交叉验证AUC: {grid_search.best_score_:.4f}") # 输出0.8925 # 使用最佳模型 best_model = grid_search.best_estimator_

最佳参数：max_depth=5, learning_rate=0.1, n_estimators=200
优化后测试集AUC：0.8943（较调优前提升1.5%）

七、模型评估与解释：理解模型如何做决策

7.1 最终模型评估（测试集）

# 最佳模型预测 y_pred_proba_best = best_model.predict_proba(X_test)[:, 1] y_pred_best = best_model.predict(X_test) # 计算关键指标 print(f"测试集AUC: {roc_auc_score(y_test, y_pred_proba_best):.4f}") # 输出0.8943 print(" 混淆矩阵:") print(confusion_matrix(y_test, y_pred_best)) print(" 分类报告:") print(classification_report(y_test, y_pred_best))

最终模型性能：

AUC=0.8943（良好，接近0.9）精确率=0.70，召回率=0.73（能识别73%的流失客户）F1分数=0.71（精确率和召回率的平衡）

7.2 ROC曲线绘制

from sklearn.metrics import roc_curve # 计算ROC曲线数据 fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba_best) # 绘制ROC曲线 plt.figure(figsize=(8, 6)) plt.plot(fpr, tpr, label=f'AUC = {roc_auc_score(y_test, y_pred_proba_best):.4f}', color='blue') plt.plot([0, 1], [0, 1], 'k--', label='随机猜测') plt.xlabel('假正例率（1-特异性）') plt.ylabel('真正例率（敏感性/召回率）') plt.title('ROC曲线') plt.legend() plt.show()

ROC曲线解读：曲线越靠近左上角，模型性能越好。本模型AUC=0.8943，显著优于随机猜测（AUC=0.5）

7.3 模型解释（SHAP值）

使用SHAP值解释模型预测的”为什么”：

import shap # 提取预处理后的训练数据（用于SHAP解释） preprocessor = best_model.named_steps['preprocessor'] X_train_preprocessed = preprocessor.transform(X_train) # 获取特征名称 feature_names = num_features + list(preprocessor.named_transformers_['cat'].named_steps['onehot'].get_feature_names_out(cat_features)) # 初始化SHAP解释器（适用于树模型） explainer = shap.TreeExplainer(best_model.named_steps['classifier']) # 计算SHAP值（取前100个样本加速） shap_values = explainer.shap_values(X_train_preprocessed[:100]) # 绘制SHAP摘要图 plt.figure(figsize=(12, 8)) shap.summary_plot(shap_values, X_train_preprocessed[:100], feature_names=feature_names)

SHAP摘要图解读：

红色表示特征值高，蓝色表示特征值低Contract_month-to-month（月付合同）：红色区域SHAP值为正（增加流失概率），是流失的最强驱动因素tenure（服务时长）：蓝色区域（时长短）SHAP值为正，服务时间越短，流失风险越高InternetService_Fiber optic（光纤服务）：红色区域SHAP值为正，光纤用户更易流失

八、模型部署：构建客户流失预测接口

8.1 模型保存

import joblib # 保存最佳模型 joblib.dump(best_model, 'churn_prediction_model.pkl') print("模型已保存为churn_prediction_model.pkl")

8.2 构建简单预测接口（Python函数）

def predict_churn(customer_data, model_path='churn_prediction_model.pkl'): """ 客户流失预测函数参数: customer_data: dict，包含客户特征（如{'tenure': 5, 'Contract': 'Month-to-month', ...}） model_path: str，模型保存路径返回: float: 流失概率（0-1） str: 预测结果（"高风险"、"中风险"、"低风险"） """ # 加载模型 model = joblib.load(model_path) # 将客户数据转换为DataFrame（保持特征顺序） customer_df = pd.DataFrame([customer_data]) # 应用特征创造（tenure_group） customer_df = create_tenure_group(customer_df) # 预测流失概率 churn_prob = model.predict_proba(customer_df)[0, 1] # 判断风险等级 if churn_prob >= 0.7: risk_level = "高风险" elif churn_prob >= 0.3: risk_level = "中风险" else: risk_level = "低风险" return churn_prob, risk_level # 测试预测接口 test_customer = { 'gender': 'Female', 'SeniorCitizen': 0, 'Partner': 'No', 'Dependents': 'No', 'tenure': 5, 'PhoneService': 'Yes', 'MultipleLines': 'No', 'InternetService': 'Fiber optic', 'OnlineSecurity': 'No', 'OnlineBackup': 'No', 'DeviceProtection': 'No', 'TechSupport': 'No', 'StreamingTV': 'Yes', 'StreamingMovies': 'Yes', 'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Electronic check', 'MonthlyCharges': 89.8, 'TotalCharges': 448.5, # tenure_group会自动生成 } prob, risk = predict_churn(test_customer) print(f"客户流失概率: {prob:.2%}, 风险等级: {risk}") # 输出：客户流失概率: 78.35%, 风险等级: 高风险

8.3 业务应用建议

高风险客户（>70%）：提供个性化优惠（如合同折扣、免费增值服务）中风险客户（30%-70%）：发送满意度调查，解决潜在问题低风险客户（<30%）：维持现有服务，关注交叉销售机会流失驱动因素：针对月付合同客户推广长期合同，提供光纤服务质量改进方案

九、项目总结与展望

9.1 项目回顾

本项目从零构建了客户流失预测系统，涵盖：

数据探索：发现合同类型、服务时长、互联网服务类型是流失的关键影响因素特征工程：创建服务时长分段特征，提升模型性能模型优化：通过SMOTE处理类别不平衡，网格搜索调优参数，最终模型AUC达0.8943模型解释：使用SHAP值揭示流失驱动因素，增强业务可解释性

9.2 改进方向

特征工程：尝试更多特征（如客户投诉次数、服务中断记录）高级模型：使用深度学习（如TabNet）或集成模型（Stacking）提升性能实时预测：结合客户行为数据（如近期服务使用频率）动态更新流失概率A/B测试：验证挽留策略的实际效果（如给高风险客户发优惠后，观察流失率变化）