从Prompt到Harness:AI Agent四代工程化体系演进与三种智能体范式升级
AI Agent = Model + 工程化——过去三年,这个公式不断被验证。大模型的能力边界不仅取决于参数量,更取决于我们如何驾驭它。
2023年初,大多数人还在琢磨“怎么跟ChatGPT说话才能得到好答案”;三年后,我们已经可以坐在电脑前,用自然语言让一群AI Agent自动完成代码审查、运维修复、视频生成、营销策划。
这样的进化令人惊叹。但很少有人梳理清楚:AI Agent能力的每一次“质变”究竟是怎么发生的?从“能答”到“能用”,从“好用”再到“可生产落地”,这背后不是靠模型本身,而是一套工程化体系在持续升级。
一言以蔽之:AI Agent经历了四代工程化体系的跃迁——提示词工程(Prompt Engineering)→ 上下文工程(Context Engineering)→ 智能化工程(Agentic Engineering)→ 驾驭工程(Harness Engineering);与此同时,智能体范式也从Workflow模式升级到ReAct模式,再升级到Multi-Agent多智能体协作模式。
每一代工程化体系的升级,都对应着智能体从“能答”“能用”到“好用”再到“可生产落地”的能力质变。而四代工程体系之间不是替代关系,而是深度融合、互为支撑——Prompt是基础,Context是原材料,Agentic和Harness是生产框架。
架构总览:四代工程体系 × 三种智能体范式
先拉一张总图,帮你建立全局视角,看看这四代是怎么一层一层堆叠起来的:

一眼看去就很清晰:工程化体系和智能体范式是“双螺旋”进化关系——每一代工程化体系催生了对应的智能体范式,而智能体范式的局限又反过来推动工程化体系继续升级。下面我们逐代拆解。
第一代:提示词工程 × Workflow 模式(2023-2024)
工程化体系:Prompt Engineering
提示词工程的核心焦虑就一件事: “怎么把话说清楚” 。那时候,AI应用的精髓在于反复调试指令措辞、格式、Few-shot示例,让AI一次性给出好答案。结构化的System Prompt、角色设定、输出格式约束,这些都是提示词工程师们的“工具箱”。
提示词工程的诞生背景也很简单:2022年底ChatGPT横空出世,大家发现这个大模型“脾气很怪”——同样的问题换个问法答案天差地别。于是“提示词工程师”这个岗位随之诞生,年薪最高开到百万,一时风光无两。
智能体范式:Workflow 模式
这一阶段的智能体遵循固定流程编排,像流水线一样按预设步骤执行:输入结构化Prompt → LLM推理 → 输出结果。人工通过调整提示词措辞来干预输出质量。
典型代表:
- 早期ChatGPT交互:用户需要反复修改措辞才能得到理想答案,人和AI的关系像“出题者和答题者”
- 固定流程智能体:基于LangChain或Dify等框架开发的确定性工作流Agent,如简单的客服机器人、单轮问答系统

局限与边界
提示词工程解决的是单次对话的质量问题,交互模式停留在“一问一答”,人和AI的关系像“出题者和答题者”。一旦任务复杂度提升或需要多轮协作,纯Prompt工程便显得力不从心。
打个比方:提示词工程就像你第一次跟外国厨师交流,只能靠反复比划来点菜。点一份汉堡还行,点一桌满汉全席?光比划能把你累死。
第二代:上下文工程 × ReAct 模式(2025)
工程化体系:Context Engineering
上下文工程被推至风口浪尖,Shopify CEO Tobi Lutke起到了关键作用,而AI大神Andrej Karpathy进一步对其进行推广。正如Karpathy所说: “上下文工程是一门微妙的艺术与科学,旨在填入恰到好处的信息,为下一步推理做准备。”
为什么需要上下文工程?道理很朴素——光靠提示词不够,AI需要看到相关文档、代码片段、历史对话、工具调用结果才能给出好答案。这就好比你跟一个实习生沟通,光说“把报告做好”远远不够,你得给他参考范例、历史数据、工作模板,他才能真正上手。
体系范围在提示词工程基础上大幅扩展:

其中,MCP(Model Context Protocol)协议是上下文工程最具标志性的基础设施。2024年11月由Anthropic发布后,仅用半年时间就从早期采用者的实验变成了主流企业级接口。这个开放标准让AI应用能够连接到外部系统,而无需为每个应用或数据集编写定制代码——因此被业界形象地称为“AI的USB-C接口”。
在MCP体系中,服务器端暴露三种能力:工具(可调用函数)、资源(可读取数据)、提示词(可复用的参数化指令)。客户端——无论是IDE、桌面助手还是Web应用——自动发现可用能力并按需请求上下文,实现了模型推理与上下文管理的解耦。
智能体范式:ReAct模式(Reasoning + Acting)
ReAct范式由普林斯顿大学和Google Research团队在2022年提出,通过将思维链(CoT)与工具调用相结合,构建“推理-行动-观察”的迭代循环。其核心创新在于:动态知识扩展(通过工具调用获取实时数据,突破LLM静态知识边界)、上下文保持(在多轮交互中维护完整的状态记忆)、失败恢复机制(当行动结果不符合预期时,自动触发重新推理)。

举个例子,当你问“帮我查一下明天北京到上海的航班,选一个上午出发、价格低于1000元的,然后帮我订一张”时,整个过程是这样的:
- 思考1:需要查询航班信息 → 行动1:调用航班查询工具 → 观察1:获取航班列表
- 思考2:筛选符合条件(明天上午、<1000元)的航班 → 行动2:调用订票工具 → 观察2:订票成功
- 输出:确认订票结果
这个过程完全在上下文管理下自动完成,用户只需要一句话就够了。人与AI的关系也从“出题者和答题者”变成了“老板和助理”。
典型代表产品:
- 豆包、千问、Kimi等APP:已经不是“聊天机器人”,而是可以按需调用工具的智能助手。上传PDF要求生成PPT,AI会调工具读取文档→规划结构→调用生成工具→直接产出可用的PPT文件;上传Excel要求做数据分析并生成图表,AI能理解数据结构、进行分析、交付完整报告。
- 谷歌NotebookLM:上传笔记、文档、链接,AI基于这些“私有上下文”回答问题、生成摘要,甚至可以创建播客式对话。
- 腾讯IMA:个人知识管理工具,AI能基于你的知识库提供精准答案。
第三、四代:智能化工程 + 驾驭工程 × Multi-Agent 模式(2025年底-)
工程化体系:Agentic Engineering
Andrej Karpathy后来提出了Agentic Engineering(智能化工程)概念,聚焦 “让AI能交付、能协作” ,指导vibe coding逐渐向可靠交付转变。他的原话很直白: “你有99%的时间都不是在亲自写代码……而是在协调代理完成工作,并负责监督。”
Agentic Engineering与早期Vibe Coding的最大差异在于“结构化程度”。Vibe Coding模式下,开发者多半直接与单一模型互动,生成结果高度依赖提示词品质,容易出现安全漏洞、维护困难与技术债问题。而Agentic Engineering则强调“分工与治理”:开发者会先定义目标、限制条件与品质标准,再由多个AI Agent分别负责实现、测试、除错与安全检查,最后由人类进行审核与整合——内建品质关卡、自动化测试与审计轨迹。
体系范围在上下文工程基础上增加:

工程化体系:Harness Engineering
如果说Agentic Engineering侧重能力提升,让AI从“能干活”往“能交付可验收成果”迈进;那么Harness Engineering(驾驭工程)则是在智能体已经足够强劲的基础上,更加强调构建一整套系统来约束、引导和验证AI Agent的自主行为,让AI安全可靠地在生产环境中落地。
2026年2月5日,HashiCorp联合创始人、Terraform之父Mitchell Hashimoto在自己的博客中正式命名了这个概念。核心思路极其朴素但深刻: “每当你发现Agent犯了一个错误,你就花时间设计一个解决方案,使Agent永远不再犯同样的错误。” 这不是单次优化,而是一套可积累、可进化、能持续收敛错误的闭环体系。
为什么要给AI套“缰绳”?Hashimoto打了个绝妙的比喻:
“大模型/AI Agent就像一匹天赋拉满的野马,跑得飞快、力气超大,但没规矩、没方向,容易乱撞、失控——列如输出错误信息(幻觉)、越权操作。Harness(驾驭系统)就是缰绳+马鞍+跑道+护栏+仪表盘——不帮野马跑更快,但能拽住它的方向、控制它的节奏,防止它闯祸。 ”
六天后,OpenAI在官方百万行代码实验报告中正式采用这一术语,一支初始3名后扩充至7名工程师的团队,5个月内通过Codex Agent生成超100万行生产级代码。Martin Fowler随即撰文深度解析。一个月内,Harness Engineering成为2026年AI工程领域最核心的新范式。
驾驭工程的核心设计哲学提炼为三点:
|
约束类型 |
核心内容 |
具体实践 |
|
安全约束 |
权限控制、资源隔离 |
沙箱执行环境、API访问白名单 |
|
设计约束 |
架构规范、技术标准 |
代码风格检查、安全漏洞扫描 |
|
质量约束 |
自动化测试、持续反馈 |
Eval评估集、自动化回归测试 |
OpenAI对此给出了一个极其精炼的定位: “人类掌舵,智能体执行。” 驾驭工程不是优化模型本身,而是优化模型运行的环境。

智能体范式:Multi-Agent 协作模式
无论是Agentic Engineering还是Harness Engineering,主要依赖的AI Agent范式都是从 “单兵作战”进化为“团队协作” 的Multi-Agent模式。
Multi-Agent系统的核心特征:星形拓扑架构(Leader Agent负责规划与指挥,Expert Agents并行执行)、直接通信机制(Agent之间可直接对话,无需通过用户中转)、上下文隔离(每个Agent拥有独立上下文空间,避免信息干扰)、共享任务看板(实时同步任务状态与依赖关系)。
Anthropic在2025年披露的多智能体研究系统是一个教科书级的案例:一个“主导智能体”扮演项目经理的角色,负责规划和拆解任务,随后并行创建多个“子智能体”分头执行信息检索与分析。内部评测显示,多智能体系统在复杂研究任务上的表现较单智能体系统提升了90.2%。Anthropic团队总结的关键洞察是:
“一旦智能体能力达到必定门槛,多智能体系统就成为扩展性能的关键方式。例如,尽管人类个体在过去十万年间变得更为机智,但进入信息时代后,人类社会之所以指数级提升能力,正是由于集体智慧和高效协作。同样,即使是具备通用智能的单体智能体,其能力也有上限;而智能体群体协同作业则远远超越个体能力。”
三大典型代表:
1. 编程多智能体:Claude Code的Agent Teams
Claude Code的Agent Teams是一个多智能体协作框架,允许一个主导Agent(Leader)创建并管理多个子Agent(Teammate)组成的团队,并行完成复杂任务。核心架构包括:
- Leader:负责创建团队、分配任务、监控进度、汇总结果、解散团队
- Teammate:每个负责具体子任务,拥有独立的上下文和工具集
- TaskList:团队共享的任务管理中心,存储所有子任务及其状态
- Mailbox:团队成员之间的通信通道
典型场景如代码审查:Leader将代码库全面审查拆成安全性审查、可维护性审查、性能审查等子任务,每个Teammate并行处理,最后由Leader汇总结果——效率相比串行处理提升数倍。
2. 企业级Multi-Agent落地:从华为到百度的实践
2025年,Multi-Agent协作在产业界已形成规模化应用。华为推出的RAN多智能体系统,通过多个智能体之间的高效协作与联合决策,实现从单场景自智到跨场景协同自智的跨越,已服务全球66家运营商、覆盖超50万站点。百度文库GenFlow 2.0基于Multi-Agent并行架构,同时编排超过100个AI Agent协同工作,将复杂任务处理时间从数小时压缩到三分钟以内。
浙江移动联合直真科技的传输网故障处理Multi-Agent系统更是一个落地范本:传输工作台智能体负责任务调度、故障定位诊断、业务分析及恢复验证,厂家OMC智能体专注单域故障诊断修复,两者高效协同实现端到端自动化,沟通与处理效率提升80%。
3. 终端个人通用智能体:OpenClaw
2026年春节前后大热的开源项目OpenClaw代表了个人终端智能体的方向。其特点包括:终端部署能力(访问终端文件、执行终端脚本、调用终端上的工具)、可扩展的Skills生态、能对接各种IM渠道(WhatsApp、Telegram、Discord、Slack、微信等)方便手机远程操控。
但OpenClaw也面临“终端失控、数据泄露”等安全挑战。正是这个痛点催生了Harness Engineering的实践需求。
驾驭工程的实践分野:OpenClaw vs. WorkBuddy
值得注意的是,第四代工程化体系内部已经出现了一个清晰的分野——这是许多技术观察者容易忽略的:

腾讯WorkBuddy和阿里QoderWork等产品,在继承OpenClaw理念的基础上,进一步完善了安全审计、权限管控、沙箱隔离等机制——让AI在生产环境中可靠运行。OpenClaw代表了Agentic Engineering的能力突破,而WorkBuddy则代表了Harness Engineering的安全驾驭。两者分工明确,恰好印证了Karpathy的判断:Agent的成熟不只是功能堆叠,而是架构革新。
整体逻辑总结:从“适配模型”到“驾驭模型”
四代工程化体系的演进,完整体现了大模型行业的发展阶段:
|
工程阶段 |
核心任务 |
关键词 |
人与AI的关系 |
|
Prompt Engineering |
通过优化提示词适配大模型的生成逻辑 |
适配模型 |
出题者 vs 答题者 |
|
Context Engineering |
注入准确信息打破大模型知识边界,支持工具调用 |
赋能模型 |
老板 vs 助理 |
|
Agentic Engineering |
通过技能、编排与协作增强劲模型,完成长程任务 |
增强模型 |
监工 vs 执行团队 |
|
Harness Engineering |
通过全链路管控约束不确定性,规模化生产落地 |
驾驭模型 |
驾驶员 vs 引擎 |
四者关系:不是替代,而是深度融合、互为支撑。Prompt是基础,Context是原材料,Agentic和Harness是生产框架。这就像盖房子——提示词是施工图纸,上下文是建筑材料,智能化工程是施工方案,驾驭工程是安全监理。缺了哪一环,房子都盖不起来。
而这个演进方向的核心目标只有一个:让AI在自主性与可控性之间找到最佳平衡点。
结语
AI Agent的工程化演进揭示了一个核心规律:大模型的能力边界不仅取决于模型本身,更取决于我们如何用工程化手段“驾驭”它。
从精心设计的提示词,到丰富的上下文供给,到多智能体编排与任务分解,再到完整的约束与质量保障体系——每一代工程化都在回答同一个问题:如何让AI既机智又可靠?
Karpathy在2025年就做了一个清醒的判断:“这不是Agent之年,而是智能体的十年。”他提醒行业不要急于求成,Agent的成熟需要持续十年的系统工程积累。这个预测在驾驭工程出现后显得愈发精准——真正让AI Agent从“玩具”进化为“工具”的,不是模型参数的堆砌,而是一整套精密、可靠的工程化体系。
当Multi-Agent系统能够像专业团队一样协作,当驾驭工程能够确保长程任务的稳定交付,AI Agent才真正从“实验室”走向“生产线”。而这一天,或许比我们想象的更近。


