多智能体强化学习:从单智能体到 LLM-Agents 的演进丨「大模型时代下的Agent建模与仿真」读书会·周二直播

多智能体强化学习:从单智能体到 LLM-Agents 的演进丨「大模型时代下的Agent建模与仿真」读书会·周二直播

导语

本周是读书会的第三期分享,曾利博士将围绕强化学习从单智能体到深度策略优化的核心原理,解析状态、动作等概念及 DQN、PPO 等算法构建;深入多智能体强化学习范式,剖析非平稳性等挑战与主流模型机制;探讨融合大语言模型的多智能体建构,解析 LLM 引入路径与未来范式,展现从基础到前沿的技术演进与应用实践。多智能体强化学习:从单智能体到 LLM-Agents 的演进丨「大模型时代下的Agent建模与仿真」读书会·周二直播

多智能体强化学习:从单智能体到 LLM-Agents 的演进丨「大模型时代下的Agent建模与仿真」读书会·周二直播

分享背景

强化学习(Reinforcement Learning, RL)作为人工智能中建模“智能体-环境交互”的核心范式,近年来已在众多复杂系统中展现出惊人的性能。随着深度神经网络与计算资源的发展,RL已从传统的表格型方法迈向深度强化学习(Deep RL)阶段,极大拓展了其在高维状态空间下的泛化能力与实用性。

在此基础上,多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)应运而生,成为应对多方博弈、群体协作与复杂机制设计等问题的关键技术路径。近年来,MARL在多个领域取得了令人瞩目的成果:它不仅推动了《星际争霸II》、《德州扑克》、《陆军棋》等复杂博弈中超越人类的AI系统诞生,也在经济政策优化、仿人足球、多机器人协作、语言涌现与社会行为建模等任务中实现重大突破,成为连接智能体学习与群体智能的核心桥梁。强化学习也因此从单体智能迈向群体智能,从控制优化工具演化为“社会建模引擎”。

与此同时,大语言模型(Large Language Models, LLMs)的崛起,为构建具备推理、协作与语言能力的认知智能体提供了前所未有的技术基础。LLMs不仅能以自然语言感知环境、表达意图,更能作为策略生成器、通信协议或行为控制器嵌入强化学习体系中,成为多智能体系统中的“语言中枢”与“知识内核”。基于此,融合MARL与LLMs的认知型智能体系统,正逐步形成新的研究范式,为人工智能的泛化能力、交互能力与社会适应能力打开新局面。

分享简介

本次分享将围绕“单智能体强化学习 – 多智能体强化学习 – 大语言模型”这一技术进化路径,系统讲解从单智能体强化学习到多智能体协同的机制构建,再到融合语言模型的前沿探索,协助您全面理解当代智能体系统的发展逻辑与未来趋势。

分享大纲

一、强化学习基础框架:从单智能体到深度策略优化的核心原理梳理

  • 理解智能体决策过程:系统解析状态、动作、奖励、策略、值函数等基本概念及其交互闭环;

  • 强化学习的典型方法谱系:从值函数方法(如Q-Learning、SARSA)到策略优化方法(如REINFORCE、PPO)的一体化进化;

  • 深度强化学习的关键机制:引入神经网络后的泛化能力、经验回放、目标网络、策略稳定性与样本效率提升机制;

  • 代表算法结构剖析:聚焦DQN与PPO算法的实际构建流程,搭建强化学习系统的基础认知图谱

  • 深度强化学习在组合优化问题求解中的应用实践:介绍深度强化学习在求解组合优化问题中的思路与案例

二、多智能体强化学习范式演进:从独立学习到群体协同的策略博弈建模

  • MARL问题定义与挑战全景:非平稳性、信用分配、策略耦合、通信建模等核心瓶颈分析;

  • 典型方法框架解析:从Independent Q-Learning到CTDE(聚焦训练、分布执行)框架下的VDN、QMIX、MADDPG、MAPPO等主流模型机制;

  • 多智能体强化学习经典工作:回顾多智能体强化学习在复杂博弈与协作任务中的经典工作;

三、融合大语言模型的多智能体智能体建构:LLM-Agents范式的兴起与技术逻辑

  • LLM引入的三类路径:作为状态嵌入器(语言感知)、策略生成器(行为规划)与通信引擎(信息交互)

  • 构建语言协同智能体:刻画语言中的目标意图、环境状态与多智能体指令分发关系,实现“语言即策略”;

  • 展望未来:LLM-Agents作为通用型协作智能体架构的雏形,将如何重构群体智能与复杂系统建模的新范式。

核心术语

  • 强化学习 / 深度强化学习 / 马尔可夫决策过程 / 组合优化

  • 多智能体强化学习 / 博弈论 / 蒙特卡罗树搜索 / 大语言模型

参考文献

  • Albrecht, Stefano V., Filippos Christianos, and Lukas Schäfer. Multi-agent reinforcement learning: Foundations and modern approaches. MIT Press, 2024.

多智能体强化学习:从单智能体到 LLM-Agents 的演进丨「大模型时代下的Agent建模与仿真」读书会·周二直播

  • Zhang, Kaiqing, Zhuoran Yang, and Tamer Başar. “Multi-agent reinforcement learning: A selective overview of theories and algorithms.” Handbook of reinforcement learning and control(2021): 321-384.

  • Yang, Yaodong, and Jun Wang. “An overview of multi-agent reinforcement learning from game theoretical perspective.” arXiv preprint arXiv:2011.00583(2020).

  • Nowé, Ann, Peter Vrancx, and Yann-Michaël De Hauwere. “Game theory and multi-agent reinforcement learning.” Reinforcement learning: State-of-the-art. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. 441-470.

  • Mnih, Volodymyr, et al. “Human-level control through deep reinforcement learning.” nature518.7540 (2015): 529-533.

  • Moravčík, Matej, et al. “Deepstack: Expert-level artificial intelligence in heads-up no-limit poker.” Science356.6337 (2017): 508-513.

  • Vinyals, Oriol, et al. “Grandmaster level in StarCraft II using multi-agent reinforcement learning.” nature575.7782 (2019): 350-354.

  • Jaderberg, Max, et al. “Human-level performance in 3D multiplayer games with population-based reinforcement learning.” Science364.6443 (2019): 859-865.

  • Schrittwieser, Julian, et al. “Mastering atari, go, chess and shogi by planning with a learned model.” Nature588.7839 (2020): 604-609.

  • Fan, C., Zeng, L., Sun, Y., & Liu, Y. Y. (2020). Finding key players in complex networks through deep reinforcement learning. Nature machine intelligence, 2 (6), 317-324.

  • Fan, Changjun, et al. “Searching for spin glass ground states through deep reinforcement learning.” Nature communications14.1 (2023): 725.

  • Pu, T., Chen, C., Zeng, L., Liu, S., Sun, R., & Fan, C. (2024, December). Solving Combinatorial Optimization Problem Over Graph Through QUBO Transformation and Deep Reinforcement Learning. In 2024 IEEE International Conference on Data Mining (ICDM)(pp. 390-399). IEEE.

  • Perolat, Julien, et al. “Mastering the game of Stratego with model-free multiagent reinforcement learning.” Science378.6623 (2022): 990-996.

  • Kaufmann, Elia, et al. “Champion-level drone racing using deep reinforcement learning.” Nature620.7976 (2023): 982-987

  • Lutz, Isaac D., et al. “Top-down design of protein architectures with reinforcement learning.” Science380.6642 (2023): 266-273.

  • McKee, Kevin R., et al. “Scaffolding cooperation in human groups with deep reinforcement learning.” Nature Human Behaviour7.10 (2023): 1787-1796.

  • Ma, Chengdong, et al. “Efficient and scalable reinforcement learning for large-scale network control.” Nature Machine Intelligence6.9 (2024): 1006-1020.

  • Hafner, Danijar, et al. “Mastering diverse control tasks through world models.” Nature(2025): 1-7.

  • Zhuang, Yuan, et al. “Yolo-marl: You only llm once for multi-agent reinforcement learning.” arXiv preprint arXiv:2410.03997(2024).

  • Nagpal, Kartik, et al. “Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment.” arXiv preprint arXiv:2502.16863(2025).

  • Jiang, Zhouyang, et al. “QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning?.” arXiv preprint arXiv:2504.12961(2025).

  • Hao, Qianyue, et al. “Llm-explorer: A plug-in reinforcement learning policy exploration enhancement driven by large language models.” arXiv preprint arXiv:2505.15293(2025).

主讲人介绍

多智能体强化学习:从单智能体到 LLM-Agents 的演进丨「大模型时代下的Agent建模与仿真」读书会·周二直播

曾利,国防科技大学系统工程学院二年级在读博士,立理AI联合创始人。本硕博均就读于国防科技大学,在Nature Machine Intelligence、ICDM、CIKM、科研管理等会议和期刊上发表学术论文30余篇。

研究方向:复杂网络、强化学习、组合优化、大语言模型等

参与方式

参与时间

2025年7月22日(周二)晚上19:30-21:30

报名加入社群交流

https://pattern.swarma.org/study_group_issue/923?from=wechat

「大模型时代下的Agent建模与仿真」读书会

核心问题

Agent建模与仿真是什么,核心技术发生了怎样的演变?

大模型时代,Agent建模与仿真会给复杂系统理论带来哪些突破?

大模型如何赋能Agent实现自主思考与动态适应?

大模型驱动的Agent交互会涌现出什么新型的社会现象?

Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式?

你将收获

梳理Agent建模与仿真的历史发展脉络与方法论;

掌握一套理解、分析、控制、预测复杂系统的计算实验框架;

掌握基于多主体强化学习的复杂系统优化方法;

领略领域前沿学者的研究体系与科研路径。

详情请见:大模型时代下的Agent建模与仿真:共探人工社会未来图景

© 版权声明

相关文章

1 条评论

  • 头像
    旺仔牛奶加黑咖 读者

    收藏了,感谢分享

    无记录
    回复