AI智能体进化迎来“轻模式”：Memento无需微调 LLM，凭借“经验记忆”实现持续学习

原文：
AI智能体进化迎来“轻模式”：Memento无需微调 LLM，凭借“经验记忆”实现持续学习

链接：https://arxiv.org/abs/2508.16153

编译：黄绿君

一项名为“Memento”的最新研究，正为人工智能（AI）领域开启一扇全新的大门。来自伦敦大学学院（UCL）、华为诺亚方舟实验室等机构的研究团队，提出了一种创新的学习范式，让大型语言模型（LLM）驱动的AI智能体（Agent）能够在不进行昂贵、耗时的模型微调（Fine-tuning）的情况下，实现持续的自我进化和技能提升。

这项技术的核心，在于**为AI智能体装配了一个动态的“经验记忆库”，使其能像人类一样，从过去的成功与失败中汲取教训。**这不仅解决了当前AI智能体发展的两大瓶颈——要么是工作流僵化、不懂变通，要么是训练成本高昂、难以普及——更为通用AI智能体的未来发展，描绘出了一条更高效、更可扩展的“轻量化”路径。

当前AI智能体的“两难困境”

在人工智能的世界里，LLM智能体如同被赋予了大脑的超级助理，它们被期望能自主地完成复杂任务，从深度课题研究到编写代码，无所不能。然而，要让这位助理变得更聪明，传统上只有两条路可走。

第一条路是“指令化”，即开发者为智能体设计一套固定的、手工编码的“工作手册”。这种智能体在特定任务上表现优异，但就像一个只会照本宣科的员工，一旦遇到手册上没有的新情况，就会立刻陷入僵局，缺乏灵活性和适应性。

第二条路是“再培训”，即通过监督微调或强化学习等方式，更新LLM本身的网络参数，相当于让这位员工重新“回炉深造”。这种方式虽然能让智能体学会新技能，但过程极其昂贵。每一次“深造”都需要海量的计算资源和数据，好比为了让一个经验丰富的员工学会一项新技能，就必须让他重读一遍大学，成本高昂且效率低下，尤其不适用于需要实时适应新环境的开放式场景。

长久以来，AI领域一直在探索一个核心问题：我们能否构建一种既灵活又能低成本持续学习的AI智能体？Memento的出现，正是对这一问题的有力回答。

Memento的核心突破：从“死记硬背”到“温故知新”

Memento的设计灵感，源于人类高效的学习机制。人类的智慧并非仅仅储存在大脑神经元的连接中，更依赖于我们对过往经历（即“情景记忆”）的回溯与反思。一个经验丰富的医生在诊断罕见病时，往往会回忆起过往处理过的相似病例；一个棋手在博弈时，也会借鉴历史上的经典对局。

Memento正是为AI智能体模拟了这套机制。它将庞大的LLM本身看作是储存了海量知识的“教科书”，这部分知识在训练后是固定的。而在此之外，Memento为智能体额外构建了一个名为“案例库”（Case Bank）的动态“经验笔记本”。

这个“笔记本”中记录了智能体过去执行任务的完整轨迹，**每一条记录都是一个“（任务情境，执行方案，最终结果）”的三元组。**无论任务成功还是失败，都会被忠实地记录下来。当智能体接到一个新任务时，它不再是两眼一抹黑地从零开始思考，而是会首先“翻阅”这本经验笔记。

这个过程，在AI领域被称为案例推理（Case-Based Reasoning, CBR）。打个比方，Memento就像一位侦探，LLM是它脑中丰富的犯罪学知识，而“案例库”则是它办过的所有案件卷宗。遇到新案子，它会先翻阅旧卷宗，寻找线索相似、手法雷同的案件，从中获得破案的灵感和策略。

“记忆”如何被智能地调用？

仅仅拥有记忆还不够，关键在于如何高效、准确地从中提取最有价值的信息。 Memento为此设计了一套精密的“记忆读写”架构。

其整体框架采用“规划者-执行者”（Planner-Executor）模式。

• 规划者（Planner） 扮演着“总指挥”的角色，负责将复杂任务拆解成一系列可执行的子任务。而它的决策，正是基于从“案例库”中检索出的过往经验。• 执行者（Executor） 则是“行动队”，负责调用搜索引擎、代码解释器、图像识别等外部工具，一步步完成规划者下达的指令。

AI智能体进化迎来“轻模式”：Memento无需微调 LLM，凭借“经验记忆”实现持续学习

在“记忆读取”阶段，Memento提供了两种模式：

1. 非参数化检索：这是一种基于相似度的“模糊匹配”。系统会寻找与当前任务描述最相似的过往案例，简单直接。2. 参数化检索：这是Memento更智能的核心。它通过在线强化学习（具体为Soft Q-learning）不断优化一个“Q函数”。这个Q函数就像一个内置的“价值评估师”，它学习的不是哪个案例“最像”，而是哪个案例对解决当前问题“最有用”。这使得智能体能够超越表面相似性，提取出更具启发性的经验，避免被不相关的历史信息误导。

每当完成一次任务，“记忆写入”机制就会启动，将这次全新的经历存入“案例库”，并同步更新Q函数的评估模型。如此循环往复，智能体的“经验笔记本”越来越厚，它的决策也随之越来越精准、老道。整个过程，底层的LLM模型参数纹丝不动，却实现了智能体能力的持续迭代。

实验数据证明：经验的力量

AI智能体进化迎来“轻模式”：Memento无需微调 LLM，凭借“经验记忆”实现持续学习

研究团队在多个业界公认的权威基准测试中对Memento进行了严格的评估，结果令人振奋。

• 在衡量长程规划和工具使用能力* 的GAIA基准上，Memento的表现在验证集上排名第一，在测试集上也名列前茅，超越了众多依赖模型微调的知名智能体框架。• 在模拟真实世界网络研究的DeepResearcher数据集上，Memento的平均F1分数达到了66.6%，几乎是传统“提示工程+检索”基线（37.7% F1）的两倍。• 消融实验（Ablation Study）更是清晰地揭示了“记忆”的价值。数据显示，一旦关闭CBR案例推理模块，Memento的性能会出现显著下滑。而在引入CBR后，尤其是在处理未曾见过的“分布外”（OOD）任务时，其性能提升了4.7%至9.6%的绝对百分点。这证明了基于经验的学习对于提升AI的泛化能力至关重要。