基于协同过滤和深度学习的视频推荐系统设计与实现

内容分享6个月前发布

25 0 0

一、项目背景

随着短视频平台的快速发展,用户面临信息过载问题。如何从海量视频中精准推荐用户感兴趣的内容,成为平台提升用户体验的关键。本文介绍一个综合运用协同过滤和深度学习技术的视频推荐系统。

二、系统架构设计

2.1 整体架构

系统采用分层设计,包含以下核心模块:

数据预处理层:负责数据清洗、特征提取和编码模型层:实现多种推荐算法推荐引擎层:融合多模型结果服务层:提供RESTful API接口

2.2 技术栈选择

Python 3.8+NumPy/Pandas:数据处理Scikit-learn:特征工程Surprise:协同过滤TensorFlow:深度学习Flask:Web服务

三、数据建模

3.1 核心数据结构

系统定义三类核心实体:

用户实体


user_id, age, gender, location, register_date, preferences

视频实体


video_id, title, category, tags, duration, upload_date,
author_id, view_count, like_count

交互实体


user_id, video_id, watch_time, rating, interaction_type, timestamp

3.2 数据预处理流程

数据清洗:去重、缺失值处理用户/视频过滤:移除低活跃用户和冷门视频特征编码:ID映射为连续索引特征提取:统计用户观看行为、视频热度等数据划分:8:2比例分割训练集和测试集

关键代码实现:


def clean_data(users_df, videos_df, interactions_df):
    # 删除重复记录
    users_df = users_df.drop_duplicates(subset=['user_id'])
    videos_df = videos_df.drop_duplicates(subset=['video_id'])

    # 过滤低活跃对象
    user_counts = interactions_df['user_id'].value_counts()
    valid_users = user_counts[user_counts >= 3].index

    video_counts = interactions_df['video_id'].value_counts()
    valid_videos = video_counts[video_counts >= 5].index

    interactions_df = interactions_df[
        interactions_df['user_id'].isin(valid_users) &
        interactions_df['video_id'].isin(valid_videos)
    ]

    return users_df, videos_df, interactions_df

四、协同过滤算法实现

4.1 SVD矩阵分解

采用Surprise库的SVD算法,将用户-视频评分矩阵分解为低维用户矩阵和视频矩阵。

模型参数:

隐因子数:50迭代轮数:20学习率:0.005正则化系数:0.02

核心实现:


from surprise import SVD, Dataset, Reader

class CollaborativeFiltering:
    def train(self, interactions_df):
        reader = Reader(rating_scale=(1, 5))
        data = Dataset.load_from_df(
            interactions_df[['user_id', 'video_id', 'rating']],
            reader
        )

        self.model = SVD(
            n_factors=50,
            n_epochs=20,
            lr_all=0.005,
            reg_all=0.02
        )

        trainset = data.build_full_trainset()
        self.model.fit(trainset)

4.2 用户/物品相似度计算

实现基于余弦相似度的用户协同过滤和物品协同过滤,作为SVD的补充。


def _cosine_similarity(self, vec1, vec2):
    mask = (vec1 > 0) & (vec2 > 0)
    if not mask.any():
        return 0.0

    v1 = vec1[mask]
    v2 = vec2[mask]

    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

五、深度学习模型设计

5.1 Neural CF架构

采用神经网络协同过滤模型,通过Embedding层学习用户和视频的隐向量表示。

网络结构:


输入层: user_id, video_id
  ↓
Embedding层: 64维
  ↓
拼接层
  ↓
全连接层: [128, 64, 32]
  ↓
Dropout: 0.3
  ↓
输出层: 评分预测

模型实现:


def build_model(self):
    user_input = layers.Input(shape=(1,), name='user_input')
    user_embedding = layers.Embedding(
        self.n_users,
        self.embedding_dim
    )(user_input)
    user_vec = layers.Flatten()(user_embedding)

    video_input = layers.Input(shape=(1,), name='video_input')
    video_embedding = layers.Embedding(
        self.n_videos,
        self.embedding_dim
    )(video_input)
    video_vec = layers.Flatten()(video_embedding)

    concat = layers.Concatenate()([user_vec, video_vec])

    x = concat
    for hidden_units in [128, 64, 32]:
        x = layers.Dense(hidden_units, activation='relu')(x)
        x = layers.Dropout(0.3)(x)

    output = layers.Dense(1, activation='linear')(x)

    model = Model(inputs=[user_input, video_input], outputs=output)
    model.compile(optimizer=Adam(lr=0.001), loss='mse', metrics=['mae'])

    return model

5.2 训练策略

批大小:256训练轮数:30验证集比例:20%早停机制:验证损失5轮无改善则停止

六、混合推荐引擎

6.1 融合策略

采用加权融合方法,结合协同过滤和深度学习的预测结果:


final_score = 0.4 * cf_score + 0.6 * dl_score

实现细节:


def recommend(self, user_id, user_idx, all_videos, watched_videos, top_n=10):
    # 协同过滤推荐
    cf_videos, cf_scores = self.cf_model.recommend_for_user(
        user_id, all_videos, watched_videos, top_n*2
    )

    # 深度学习推荐
    dl_videos, dl_scores = self.dl_model.recommend_for_user(
        user_idx, all_videos, watched_videos, top_n*2
    )

    # 归一化并融合
    combined_scores = {}
    for vid, score in zip(cf_videos, cf_scores):
        normalized = (score - min(cf_scores)) / (max(cf_scores) - min(cf_scores))
        combined_scores[vid] = 0.4 * normalized

    for vid, score in zip(dl_videos, dl_scores):
        normalized = (score - min(dl_scores)) / (max(dl_scores) - min(dl_scores))
        if vid in combined_scores:
            combined_scores[vid] += 0.6 * normalized
        else:
            combined_scores[vid] = 0.6 * normalized

    # 排序返回
    sorted_items = sorted(combined_scores.items(), key=lambda x: x[1], reverse=True)
    return [v[0] for v in sorted_items[:top_n]], [v[1] for v in sorted_items[:top_n]]

6.2 多样性优化

引入分类多样性机制,避免推荐结果过于单一:


def recommend_with_diversity(self, user_id, top_n=10, diversity_factor=0.3):
    candidates, scores = self.recommend(user_id, top_n*3)

    selected = []
    selected_categories = set()

    for vid, score in zip(candidates, scores):
        if len(selected) >= top_n:
            break

        category = self.get_video_category(vid)

        # 新分类奖励
        diversity_bonus = diversity_factor if category not in selected_categories else 0
        final_score = score + diversity_bonus

        selected.append((vid, final_score))
        selected_categories.add(category)

    return selected

七、辅助推荐策略

7.1 内容推荐

基于视频标签和分类的TF-IDF特征,计算视频间相似度:


from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def build_features(self):
    self.videos_df['combined_features'] = (
        self.videos_df['category'] + ' ' +
        self.videos_df['tags'].apply(lambda x: x.replace(',', ' '))
    )

    vectorizer = TfidfVectorizer()
    self.video_features = vectorizer.fit_transform(
        self.videos_df['combined_features']
    )

7.2 热度推荐

综合观看数、评分、观看时长计算视频热度:


def compute_popularity(self):
    stats = self.interactions_df.groupby('video_id').agg({
        'user_id': 'count',
        'rating': 'mean',
        'watch_time': 'sum'
    })

    stats['popularity'] = (
        0.4 * stats['norm_interactions'] +
        0.3 * stats['norm_rating'] +
        0.3 * stats['norm_watch_time']
    )

    return stats

八、Web服务实现

8.1 API接口设计

使用Flask框架提供RESTful接口:

个性化推荐


POST /api/recommend
Body: {"user_id": 123, "top_n": 10}
Response: {
    "user_id": 123,
    "recommendations": [...],
    "total": 10
}

热门推荐


GET /api/recommend/popular?top_n=10

相似视频


GET /api/recommend/similar/456?top_n=10

8.2 服务初始化


def initialize_system():
    # 加载数据
    loader = DataLoader()
    users_df, videos_df, interactions_df = loader.load_all_data()

    # 预处理
    preprocessor = DataPreprocessor()
    users_df, videos_df, train_df, test_df = preprocessor.preprocess_all(
        users_df, videos_df, interactions_df
    )

    # 加载模型
    cf_model = CollaborativeFiltering()
    cf_model.load_model()

    dl_model = NeuralCollaborativeFiltering(n_users, n_videos)
    dl_model.load_model()

    # 初始化推荐器
    hybrid_recommender = HybridRecommender(cf_model, dl_model)

    return hybrid_recommender

九、模型训练与评估

9.1 训练流程

完整的训练脚本包含以下步骤:

加载原始数据数据预处理和划分训练协同过滤模型训练深度学习模型模型评估和保存


python train.py

9.2 评估指标

采用多个指标全面评估模型性能:

准确性指标

MAE (Mean Absolute Error)RMSE (Root Mean Square Error)

排序指标

Precision@KRecall@KNDCG@K

覆盖率和多样性

Coverage: 推荐结果覆盖的视频比例Diversity: 推荐列表内部的多样性

实现代码:


def evaluate_recommendations(test_interactions, recommendations, k=10):
    user_relevant = defaultdict(list)
    for _, row in test_interactions.iterrows():
        if row['rating'] >= 4.0:
            user_relevant[row['user_id']].append(row['video_id'])

    precisions = []
    recalls = []
    ndcgs = []

    for user_id, recommended in recommendations.items():
        relevant = user_relevant.get(user_id, [])
        precisions.append(precision_at_k(recommended, relevant, k))
        recalls.append(recall_at_k(recommended, relevant, k))
        ndcgs.append(ndcg_at_k(recommended, relevant, k))

    return {
        'precision': np.mean(precisions),
        'recall': np.mean(recalls),
        'ndcg': np.mean(ndcgs)
    }

十、系统部署与使用

10.1 环境准备

安装依赖包:


pip install numpy pandas scikit-learn scikit-surprise tensorflow flask

10.2 启动服务


# 训练模型
python train.py

# 启动Web服务
python src/web_service/app.py

服务默认运行在 http://localhost:5000

10.3 接口调用示例

使用curl测试推荐接口:


# 获取个性化推荐
curl -X POST http://localhost:5000/api/recommend 
  -H "Content-Type: application/json" 
  -d '{"user_id": 1, "top_n": 10}'

# 获取热门视频
curl http://localhost:5000/api/recommend/popular?top_n=20

# 获取相似视频
curl http://localhost:5000/api/recommend/similar/100?top_n=10

十一、性能优化建议

11.1 离线计算

预计算用户/物品相似度矩阵定期批量更新推荐结果使用缓存存储热门推荐

11.2 在线优化

模型量化减少内存占用使用向量检索加速召回实现推荐结果缓存

11.3 扩展方向

引入上下文感知推荐(时间、地点)实现实时反馈学习加入冷启动策略支持多目标优化(点击率、时长、留存)

十二、总结

本系统综合运用协同过滤和深度学习技术,实现了一个功能完整的视频推荐系统。通过混合推荐策略,结合多种算法优势,在准确性和多样性之间取得平衡。系统采用模块化设计,便于扩展和优化。

实验结果表明,混合推荐方法在MAE、NDCG等指标上优于单一算法。系统已通过Web服务对外提供接口,可直接集成到实际应用中。

欢迎交流讨论,共同改进!

视频推荐系统课程设计文档

一、设计目标

本系统旨在设计并实现一个综合性视频推荐系统,融合传统协同过滤算法与现代深度学习技术,为用户提供精准、多样的个性化视频推荐服务。

1.1 功能目标

实现基于用户行为的个性化推荐支持多种推荐算法(协同过滤、深度学习、内容推荐、热度推荐)提供RESTful API接口供外部调用支持模型训练、评估和持久化实现推荐多样性优化

1.2 性能目标

推荐准确率(NDCG@10) > 0.7单次推荐响应时间 < 500ms支持1000+并发用户请求模型训练时间 < 30分钟(中等数据集)

二、需求分析

2.1 功能需求

FR1: 用户管理

用户信息存储和查询用户画像构建用户行为记录

FR2: 视频管理

视频元数据存储视频分类和标签管理视频统计信息更新

FR3: 交互记录

观看记录追踪评分数据收集用户行为分析

FR4: 推荐服务

个性化推荐热门视频推荐相似视频推荐新用户冷启动推荐

FR5: 模型训练

数据预处理模型训练模型评估模型持久化

2.2 非功能需求

NFR1: 性能

推荐接口响应时间 < 500ms支持1000+ QPS模型加载时间 < 10s

NFR2: 可扩展性

支持新增推荐算法支持分布式部署支持模型热更新

NFR3: 可维护性

模块化设计代码注释完整日志记录详细

NFR4: 数据安全

用户数据加密存储API访问权限控制敏感信息脱敏

三、系统架构设计

3.1 总体架构


┌─────────────────────────────────────────────┐
│              客户端应用层                      │
│   (Web前端 / 移动端 / 第三方应用)               │
└───────────────────┬─────────────────────────┘
                    │ HTTP/REST API
┌───────────────────▼─────────────────────────┐
│              Web服务层 (Flask)                │
│   - API路由      - 请求处理                   │
│   - 参数验证     - 响应格式化                  │
└───────────────────┬─────────────────────────┘
                    │
┌───────────────────▼─────────────────────────┐
│              推荐引擎层                        │
│   - 混合推荐器   - 内容推荐器                  │
│   - 热度推荐器   - 结果融合                    │
└───────────────────┬─────────────────────────┘
                    │
    ┌───────────────┼───────────────┐
    │               │               │
┌───▼────┐   ┌─────▼─────┐   ┌────▼────┐
│ 协同过滤 │   │ 深度学习   │   │ 内容推荐 │
│  模型   │   │   模型     │   │   模型   │
└───┬────┘   └─────┬─────┘   └────┬────┘
    │               │               │
    └───────────────┼───────────────┘
                    │
┌───────────────────▼─────────────────────────┐
│              数据处理层                        │
│   - 数据加载     - 数据清洗                    │
│   - 特征提取     - 数据编码                    │
└───────────────────┬─────────────────────────┘
                    │
┌───────────────────▼─────────────────────────┐
│              数据存储层                        │
│   - 用户数据     - 视频数据                    │
│   - 交互数据     - 模型文件                    │
└─────────────────────────────────────────────┘

3.2 模块设计

数据预处理模块

DataLoader: 数据加载DataPreprocessor: 数据预处理职责: 数据清洗、特征工程、编码转换

协同过滤模块

CollaborativeFiltering: SVD矩阵分解UserBasedCF: 基于用户的协同过滤ItemBasedCF: 基于物品的协同过滤职责: 协同过滤算法实现和训练

深度学习模块

NeuralCollaborativeFiltering: 神经网络CFDeepFM: 深度因子分解机职责: 深度模型构建和训练

推荐引擎模块

HybridRecommender: 混合推荐ContentBasedRecommender: 内容推荐PopularityRecommender: 热度推荐职责: 多算法融合和推荐生成

Web服务模块

Flask应用API路由定义职责: 对外提供HTTP接口

3.3 数据流设计

训练流程


原始数据 → 数据加载 → 数据清洗 → 特征提取 →
编码转换 → 数据划分 → 模型训练 → 模型评估 → 模型保存

推荐流程


用户请求 → 参数解析 → 获取用户历史 → 候选召回 →
多模型打分 → 分数融合 → 多样性重排 → 返回结果

四、详细设计

4.1 数据模型设计

用户表 (users)

字段	类型	说明
user_id	int	用户ID(主键)
age	int	年龄
gender	str	性别
location	str	地区
register_date	datetime	注册时间
preferences	str	偏好(逗号分隔)

视频表 (videos)

字段	类型	说明
video_id	int	视频ID(主键)
title	str	标题
category	str	分类
tags	str	标签(逗号分隔)
duration	int	时长(秒)
upload_date	datetime	上传时间
author_id	int	作者ID
view_count	int	播放量
like_count	int	点赞数

交互表 (interactions)

字段	类型	说明
user_id	int	用户ID(外键)
video_id	int	视频ID(外键)
watch_time	int	观看时长(秒)
rating	float	评分(1-5)
interaction_type	str	交互类型
timestamp	datetime	时间戳

4.2 算法设计

协同过滤算法

SVD矩阵分解原理:


R ≈ U × V^T

其中:
R: m×n评分矩阵
U: m×k用户隐因子矩阵
V: n×k视频隐因子矩阵
k: 隐因子维度

损失函数:


L = Σ(r_ui - û_i·v̂_u)² + λ(||û||² + ||v̂||²)

优化算法: 随机梯度下降(SGD)

神经网络模型

模型结构:


Input: [user_id, video_id]
  ↓
Embedding(64-dim)
  ↓
Concatenate
  ↓
Dense(128) + ReLU + Dropout(0.3)
  ↓
Dense(64) + ReLU + Dropout(0.3)
  ↓
Dense(32) + ReLU + Dropout(0.3)
  ↓
Dense(1) + Linear
  ↓
Output: rating

损失函数: MSE (Mean Squared Error)
优化器: Adam (lr=0.001)

混合推荐算法

加权融合:


score_final = α × score_cf + β × score_dl

其中:
α = 0.4 (协同过滤权重)
β = 0.6 (深度学习权重)

多样性优化:


score_diversity = score_base + γ × diversity_bonus

其中:
γ = 0.3 (多样性因子)
diversity_bonus = 1 (新分类) 或 0 (已有分类)

4.3 接口设计

API接口规范

基础URL: http://host:port/api

1. 个性化推荐


POST /recommend
Content-Type: application/json

Request:
{
    "user_id": 123,
    "top_n": 10
}

Response:
{
    "user_id": 123,
    "recommendations": [
        {
            "video_id": 456,
            "title": "视频标题",
            "category": "科技",
            "recommendation_score": 0.85,
            ...
        }
    ],
    "total": 10
}

2. 热门推荐


GET /recommend/popular?top_n=10

Response:
{
    "recommendations": [...],
    "total": 10
}

3. 相似视频


GET /recommend/similar/456?top_n=10

Response:
{
    "video_id": 456,
    "recommendations": [...],
    "total": 10
}

4. 获取视频详情


GET /videos/456

Response:
{
    "video_id": 456,
    "title": "视频标题",
    "category": "科技",
    ...
}

5. 获取用户信息


GET /users/123

Response:
{
    "user_id": 123,
    "age": 25,
    "gender": "M",
    "watched_count": 50,
    ...
}

4.4 异常处理设计

错误码定义

错误码	说明
400	请求参数错误
404	资源不存在
500	服务器内部错误

错误响应格式


{
    "error": "错误描述信息"
}

五、实现细节

5.1 开发环境

Python 3.8+pip 20.0+操作系统: Windows/Linux/macOS

5.2 依赖库

核心依赖:

numpy >= 1.21.0pandas >= 1.3.0scikit-learn >= 1.0.0scikit-surprise >= 1.1.1tensorflow >= 2.8.0flask >= 2.0.0

5.3 关键实现

数据生成器

为便于测试,系统实现了样本数据生成器:

生成1000个模拟用户生成5000个模拟视频生成50000条交互记录

模型训练流程


# 1. 数据加载
loader = DataLoader()
users_df, videos_df, interactions_df = loader.load_all_data()

# 2. 数据预处理
preprocessor = DataPreprocessor()
users_df, videos_df, train_df, test_df = preprocessor.preprocess_all(
    users_df, videos_df, interactions_df
)

# 3. 训练CF模型
cf_model = CollaborativeFiltering()
cf_model.train(train_df)
cf_model.save_model()

# 4. 训练DL模型
dl_model = NeuralCollaborativeFiltering(n_users, n_videos)
dl_model.train(train_df)
dl_model.save_model()

# 5. 评估
cf_metrics = cf_model.evaluate(test_df)
dl_metrics = dl_model.evaluate(test_df)

推荐生成流程


# 1. 初始化推荐器
recommender = HybridRecommender(cf_model, dl_model)

# 2. 获取用户历史
watched_videos = get_user_watched_videos(user_id)

# 3. 生成推荐
recommendations, scores = recommender.recommend(
    user_id=user_id,
    all_videos=all_video_ids,
    watched_videos=watched_videos,
    top_n=10
)

# 4. 返回结果
return format_recommendations(recommendations, scores)

六、测试方案

6.1 单元测试

针对各模块编写单元测试:

数据加载测试数据预处理测试模型训练测试推荐生成测试API接口测试

6.2 集成测试

测试完整推荐流程:

启动Web服务调用推荐API验证返回结果检查响应时间

6.3 性能测试

压力测试指标:

并发用户数: 100/500/1000平均响应时间95分位响应时间错误率

七、部署方案

7.1 单机部署


# 1. 安装依赖
pip install -r requirements.txt

# 2. 训练模型
python train.py

# 3. 启动服务
python src/web_service/app.py

7.2 生产部署

使用Gunicorn + Nginx:


# 启动Gunicorn
gunicorn -w 4 -b 0.0.0.0:5000 src.web_service.app:app

# Nginx配置
upstream recommendation {
    server 127.0.0.1:5000;
}

server {
    listen 80;
    location /api {
        proxy_pass http://recommendation;
    }
}

7.3 Docker部署

Dockerfile示例:


FROM python:3.8
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
CMD ["python", "src/web_service/app.py"]

八、优化方向

8.1 算法优化

引入Attention机制提升深度模型效果实现序列推荐模型(RNN/Transformer)加入多任务学习(点击率+观看时长)实现在线学习机制

8.2 工程优化

使用Redis缓存推荐结果实现模型服务化(TensorFlow Serving)采用向量检索加速召回(Faiss)实现A/B测试框架

8.3 业务优化

加入实时热点推荐实现用户画像更新支持多场景推荐(首页/搜索/相关)引入负反馈机制

九、总结

本系统完成了以下工作:

设计并实现了完整的视频推荐系统架构实现了协同过滤和深度学习两类推荐算法构建了混合推荐引擎,融合多算法优势开发了RESTful API接口供外部调用实现了完整的训练和评估流程

系统具有以下特点:

模块化设计,易于扩展算法多样,推荐准确接口完善,使用便捷文档齐全,便于维护

未来可在算法精度、系统性能、业务场景等方面进一步优化提升。

模型训练方法说明

一、训练环境准备

1.1 硬件要求

最低配置

CPU: 4核心内存: 8GB硬盘: 10GB可用空间

推荐配置

CPU: 8核心内存: 16GBGPU: NVIDIA GPU (显存4GB+)硬盘: 20GB可用空间

1.2 软件环境

操作系统

Windows 10/11Ubuntu 18.04+macOS 10.14+

Python环境

Python 3.8 或更高版本pip 20.0 或更高版本

1.3 依赖安装

创建虚拟环境(推荐):


python -m venv venv
source venv/bin/activate  # Linux/Mac
venvScriptsactivate     # Windows

安装依赖包:


cd video_recommendation
pip install -r requirements.txt

二、数据准备

2.1 使用样本数据

系统内置数据生成器,可自动生成样本数据:


from src.preprocessing.data_loader import DataLoader

loader = DataLoader()
users_df, videos_df, interactions_df = loader.load_all_data()
loader.save_all_data()

生成数据规模:

用户数: 1000视频数: 5000交互记录: 50000

数据保存位置:

data/raw/users.csvdata/raw/videos.csvdata/raw/interactions.csv

2.2 使用真实数据

如果有真实数据,按以下格式准备CSV文件:

users.csv


user_id,age,gender,location,register_date,preferences
1,25,M,北京,2023-01-01,科技,游戏
2,30,F,上海,2023-01-02,娱乐,音乐

videos.csv


video_id,title,category,tags,duration,upload_date,author_id,view_count,like_count
1,视频1,科技,热门,原创,300,2023-06-01,101,10000,500
2,视频2,娱乐,精选,高清,600,2023-06-02,102,20000,1000

interactions.csv


user_id,video_id,watch_time,rating,interaction_type,timestamp
1,1,250,4.5,view,2023-06-10 10:00:00
1,2,550,5.0,like,2023-06-10 11:00:00

将文件放置在 data/raw/ 目录下。

三、数据预处理

3.1 预处理流程

系统自动执行以下预处理步骤:

数据清洗

删除重复记录删除缺失值过滤低活跃用户(交互数<3)过滤冷门视频(交互数<5)

特征编码

用户ID编码为连续索引视频ID编码为连续索引分类标签编码

特征提取

用户特征: 交互次数、平均观看时长、平均评分视频特征: 交互次数、平均评分、平均观看时长

数据划分

训练集: 80%测试集: 20%随机种子: 42(保证可复现)

3.2 预处理参数配置

在 src/config.py 中修改预处理参数:


PREPROCESS_CONFIG = {
    'min_user_interactions': 3,      # 用户最少交互数
    'min_video_interactions': 5,     # 视频最少交互数
    'train_ratio': 0.8,              # 训练集比例
    'random_seed': 42                # 随机种子
}

3.3 查看预处理结果

预处理后的数据保存在 data/processed/ 目录:

users_processed.csv: 处理后的用户数据videos_processed.csv: 处理后的视频数据train.csv: 训练集test.csv: 测试集

四、协同过滤模型训练

4.1 SVD模型原理

SVD(奇异值分解)将用户-视频评分矩阵分解为两个低秩矩阵:


R ≈ U × V^T

损失函数:
L = Σ(r_ui - pu·qi)² + λ(||pu||² + ||qi||²)

优化算法: 随机梯度下降(SGD)

4.2 模型参数

在 src/config.py 中配置:


CF_CONFIG = {
    'n_factors': 50,        # 隐因子数量
    'n_epochs': 20,         # 训练轮数
    'lr_all': 0.005,        # 学习率
    'reg_all': 0.02,        # 正则化系数
    'random_state': 42      # 随机种子
}

参数说明:

n_factors: 隐因子维度,越大模型表达能力越强,但训练时间越长,推荐50-200n_epochs: 迭代次数,推荐10-50lr_all: 学习率,推荐0.001-0.01reg_all: 正则化系数,防止过拟合,推荐0.01-0.1

4.3 训练代码


from src.collaborative_filtering.cf_model import CollaborativeFiltering
from src.config import CF_CONFIG

# 创建模型
cf_model = CollaborativeFiltering(**CF_CONFIG)

# 训练
cf_model.train(train_df)

# 评估
metrics = cf_model.evaluate(test_df)
print(f"MAE: {metrics['mae']:.4f}")
print(f"RMSE: {metrics['rmse']:.4f}")

# 保存模型
cf_model.save_model()

4.4 预期效果

在样本数据上的参考指标:

MAE: 0.6-0.8RMSE: 0.8-1.0

五、深度学习模型训练

5.1 Neural CF模型架构

模型采用双塔结构:


用户塔: user_id → Embedding(64) → Flatten
视频塔: video_id → Embedding(64) → Flatten
         ↓
    Concatenate
         ↓
    Dense(128) + ReLU + Dropout(0.3)
         ↓
    Dense(64) + ReLU + Dropout(0.3)
         ↓
    Dense(32) + ReLU + Dropout(0.3)
         ↓
    Dense(1) + Linear

5.2 模型参数

在 src/config.py 中配置:


DL_CONFIG = {
    'embedding_dim': 64,            # Embedding维度
    'hidden_layers': [128, 64, 32], # 隐藏层结构
    'dropout_rate': 0.3,            # Dropout比例
    'learning_rate': 0.001,         # 学习率
    'batch_size': 256,              # 批大小
    'epochs': 30,                   # 训练轮数
    'validation_split': 0.2         # 验证集比例
}

参数说明:

embedding_dim: Embedding维度,推荐32-128hidden_layers: 隐藏层神经元数,可自定义dropout_rate: Dropout概率,防止过拟合,推荐0.2-0.5learning_rate: 学习率,推荐0.0001-0.01batch_size: 批大小,根据内存调整,推荐128-512epochs: 训练轮数,推荐20-50

5.3 训练代码


from src.deep_learning.neural_cf import NeuralCollaborativeFiltering
from src.config import DL_CONFIG

# 获取用户和视频数量
n_users = train_df['user_idx'].max() + 1
n_videos = train_df['video_idx'].max() + 1

# 创建模型
dl_model = NeuralCollaborativeFiltering(
    n_users=n_users,
    n_videos=n_videos,
    **DL_CONFIG
)

# 训练
history = dl_model.train(train_df)

# 评估
metrics = dl_model.evaluate(test_df)
print(f"Loss: {metrics['loss']:.4f}")
print(f"MAE: {metrics['mae']:.4f}")

# 保存模型
dl_model.save_model()

5.4 训练监控

训练过程中会输出:


Epoch 1/30
195/195 [==============================] - 5s - loss: 2.3456 - mae: 1.2345 - val_loss: 2.1234 - val_mae: 1.1234
Epoch 2/30
195/195 [==============================] - 4s - loss: 1.8765 - mae: 1.0987 - val_loss: 1.7654 - val_mae: 1.0234
...

5.5 早停机制

系统实现了早停机制:

监控验证集损失连续5轮无改善则停止训练自动恢复最佳权重

5.6 预期效果

在样本数据上的参考指标:

Loss: 0.5-0.8MAE: 0.5-0.7

六、完整训练流程

6.1 使用训练脚本

运行完整训练流程:


python train.py

脚本执行步骤:


[1/5] 加载数据...
  ↓
[2/5] 数据预处理...
  ↓
[3/5] 训练协同过滤模型...
  ↓
[4/5] 训练深度学习模型...
  ↓
[5/5] 训练完成!

6.2 训练输出示例


==================================================
视频推荐系统 - 模型训练
==================================================

[1/5] 加载数据...
用户数: 1000
视频数: 5000
交互记录数: 50000

[2/5] 数据预处理...
开始数据清洗...
开始特征编码...
开始特征提取...
划分训练集和测试集...
保存处理后的数据...
预处理完成: 用户数=987, 视频数=4823, 训练集=39456, 测试集=9864

[3/5] 训练协同过滤模型...
准备训练数据...
初始化SVD模型...
开始训练...
训练完成

评估协同过滤模型...
MAE: 0.7234
RMSE: 0.9123
模型已保存到: models/cf_model.pkl

[4/5] 训练深度学习模型...
准备训练数据...
开始训练...
Epoch 1/30
154/154 [======] - 5s - loss: 2.1234 - mae: 1.1234 - val_loss: 1.9876
...
Epoch 25/30
154/154 [======] - 4s - loss: 0.6543 - mae: 0.5432 - val_loss: 0.7123
训练完成

评估深度学习模型...
Test Loss: 0.7234
Test MAE: 0.5678
模型已保存到: models/dl_model.h5

[5/5] 训练完成!

模型评估结果:
协同过滤模型 - MAE: 0.7234, RMSE: 0.9123
深度学习模型 - Loss: 0.7234, MAE: 0.5678

模型文件已保存:
CF模型: models/cf_model.pkl
DL模型: models/dl_model.h5

七、模型调优

7.1 调优策略

欠拟合(训练集和验证集误差都高)

增加模型复杂度: 增加隐因子数、增加隐藏层减少正则化: 降低reg_all、降低dropout_rate增加训练轮数: 增加epochs

过拟合(训练集误差低,验证集误差高)

减少模型复杂度: 减少隐因子数、减少隐藏层增加正则化: 提高reg_all、提高dropout_rate增加训练数据: 收集更多数据早停: 启用早停机制

7.2 参数搜索

可以使用网格搜索寻找最优参数:


from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_factors': [30, 50, 100],
    'n_epochs': [10, 20, 30],
    'lr_all': [0.002, 0.005, 0.01],
    'reg_all': [0.01, 0.02, 0.05]
}

# 执行网格搜索
# ...

7.3 学习曲线分析

绘制训练曲线判断模型状态:


import matplotlib.pyplot as plt

plt.plot(history.history['loss'], label='train_loss')
plt.plot(history.history['val_loss'], label='val_loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()
plt.show()

八、常见问题

Q1: 内存不足

问题: 训练时出现内存溢出

解决方案:

减小batch_size减少数据量使用生成器加载数据

Q2: 训练速度慢

问题: 训练时间过长

解决方案:

使用GPU加速(TensorFlow会自动检测)减少epochs减小数据集规模使用更小的模型

Q3: 模型效果不佳

问题: MAE/RMSE指标较高

解决方案:

检查数据质量调整模型参数尝试不同的算法增加训练数据

Q4: 训练中断

问题: 训练过程被中断

解决方案:

添加ModelCheckpoint保存中间结果使用断点续训功能减少单次训练时间

九、模型评估指标

9.1 准确性指标

MAE (Mean Absolute Error)

平均绝对误差越小越好公式: MAE = Σ|y_true – y_pred| / n

RMSE (Root Mean Square Error)

均方根误差越小越好公式: RMSE = √(Σ(y_true – y_pred)² / n)

9.2 排序指标

Precision@K

前K个推荐中相关的比例公式: P@K = |相关 ∩ 推荐K| / K

Recall@K

前K个推荐覆盖的相关内容比例公式: R@K = |相关 ∩ 推荐K| / |相关|

NDCG@K

归一化折损累计增益考虑排序位置的质量指标

9.3 使用评估工具


from utils.metrics import evaluate_recommendations

# 评估推荐结果
results = evaluate_recommendations(
    test_interactions=test_df,
    recommendations=recommendations,
    k=10
)

print(f"Precision@10: {results['precision']:.4f}")
print(f"Recall@10: {results['recall']:.4f}")
print(f"NDCG@10: {results['ndcg']:.4f}")

十、模型持久化

10.1 模型保存

系统自动保存训练好的模型:

CF模型: models/cf_model.pklDL模型: models/dl_model.h5

10.2 模型加载

在Web服务中加载模型:


# 加载协同过滤模型
cf_model = CollaborativeFiltering()
cf_model.load_model('models/cf_model.pkl')

# 加载深度学习模型
dl_model = NeuralCollaborativeFiltering(n_users, n_videos)
dl_model.load_model('models/dl_model.h5')