
2026年5月7日,OpenAI往Chrome里塞了个AI Agent。
不是侧边栏助手,不是网页总结插件,是一个能直接操控你浏览器、带着你的登录态、跨标签页干活的Agent。
这事为什么重大?由于在此之前,所有AI Agent操控浏览器的方式,都隔着一层”翻译”。
现有Agent操控浏览器的三种路子,各有各的痛
目前AI Agent想操控浏览器,主要走三条路:
路子一:Playwright MCP——”翻译官模式”
Playwright MCP是当前最主流的方案。Claude Code、Cline、Cursor等Agent都在用它。
原理:Agent不直接碰浏览器,通过MCP协议调用Playwright的工具——browser_navigate、browser_click、browser_snapshot。
Agent说”点击登录按钮”,MCP翻译成Playwright指令,Playwright再操作浏览器。
问题:它用的是无状态浏览器实例。每次启动一个干干净净的Chromium,没你的Cookie、没登录态、没扩展。想访问Gmail?先登录。想操作内网?先登录。而且它用Accessibility Snapshot理解页面,碰到Canvas渲染、SVG界面直接瞎了。
翻译官很听话,但他不认识你。每次见面都得重新自我介绍。
路子二:Browser Use——”实习生模式”
Browser Use是开源界最火的方案,78000+ GitHub Stars,还有自己的微调模型bu-30b。
它用视觉模型看页面截图,理解布局,然后决策操作。比Playwright MCP强在不用选择器了,网站改版影响小。
但问题同样明显:还是得起一个新浏览器实例。你Chrome里那些已登录的网站、保存的密码、安装的扩展,统统用不了。
实习生很能干,但他没有你的工牌。进不了需要门禁的房间。
路子三:Skyvern/Stagehand——”外包模式”
Skyvern基于Playwright扩展加AI能力,Stagehand是TypeScript SDK嵌入Playwright。它们解决了验证码处理、代理轮换、反爬对抗等工程问题,但本质上还是无状态浏览器+API调用,登录态的问题照样存在。
更适合批量爬取、表单填充这类”无人值守”场景,不适合”用我的身份去操作”的场景。
外包很专业,但他们签的是服务合同,不是你的授权书。
Codex Chrome扩展:不翻译、不模拟、不外包——直接用你的Chrome
Codex Chrome扩展走的完全不是上面三条路。
它不做翻译。Agent直接在你的Chrome里操作,不需要MCP协议中转。
它不起新浏览器。用的是你正在运行的Chrome,带着你的Cookie、登录态、扩展、书签。
它不是外包。它就是你——你在Chrome里能干什么,它就能干什么。
打个比方:Playwright MCP是给你配了个翻译官,每次见面要重新介绍自己。Browser Use是招了个实习生,能力不错但没工牌。Codex Chrome扩展是直接把你的手替了——你的指纹、你的权限、你的身份,全都在。
前三种方案是”AI操控一个浏览器”,Codex是”AI操控你的浏览器”。差了两个字,差了一个维度。
五层对比:Codex凭什么不一样

三种方案对比
|
维度 |
Playwright MCP |
Browser Use |
Skyvern/Stagehand |
Codex Chrome |
|
登录态 |
❌ 无状态 |
❌ 无状态 |
❌ 无状态 |
✅ 用你的Chrome |
|
页面理解 |
Accessibility快照 |
视觉截图 |
DOM+视觉混合 |
完整访问+截图 |
|
抗改版 |
❌ 依赖选择器 |
✅ 视觉理解 |
⚠️ 部分抗改版 |
✅ 语义+视觉 |
|
使用门槛 |
配MCP+Playwright |
Python+LLM API |
部署SDK |
装个扩展就行 |
|
适用场景 |
开发测试 |
自动化任务 |
企业批量流程 |
需登录态操作 |

五层对比
前三种解决的是”AI能不能操控浏览器”,Codex解决的是”AI能不能用你的身份操控浏览器”。
这是两个不同的问题。前者是技术能力问题,后者是信任与授权问题。
三个只有Codex能做的场景

三个独有场景
场景一:跨系统数据同步
销售在Salesforce录了客户信息,客服在飞书也要建记录。两个SaaS不通API。
Playwright MCP?先手动登录两个系统再说。Browser Use?同上。
Codex:@Chrome 把Salesforce里今天新增的客户同步到飞书。它打开两个标签页,带着你的登录态读一个填一个。
场景二:内网系统操作
公司那个没API、没导出按钮的老旧ERP,每月手动搬数据。
传统方案?得先导出Cookie注入无状态浏览器,过期了又得重来。
Codex:@Chrome 打开ERP,把上个月销售数据整理成表格。你的Chrome本来就登录着,直接操作。
场景三:浏览器历史与上下文
你想让Agent”查一下我昨天在Chrome里看的那篇关于CXL的文章”。
传统方案?做不到。它们访问不了你的浏览历史。
Codex可以。它能在授权后读取你的Chrome浏览历史,找到你昨天看过的页面。
安全:三层锁,不是敞开门

三层安全防护
AI操控你的Chrome,最怕什么?它偷偷打开你的银行。
第一层:网站门禁。访问每个新网站前都会问你,可选”这次允许”、”永远允许”或”拒绝”。
第二层:操作确认。关键动作(提交表单、发消息)需你在Codex App确认。
第三层:域名黑白名单。设置里直接把银行网站拉进黑名单,它连问都不会问。
不是”把钥匙给AI”,是”AI每次开门前都问你一声”。
它做不了什么?三个诚实回答
第一,大规模爬虫。每步操作走LLM推理,慢且贵。10万条数据?Scrapy才是正解。
第二,无头批量任务。它要Chrome在前台跑,不能像Puppeteer在服务器上静默执行。
第三,CI/CD测试管线。自动化回归测试还是Playwright/Cypress的主场。
它填的是”需要登录态+语义理解”这个空档,不是替代所有浏览器自动化方案。
五分钟上手

五分钟上手步骤
1. 装Codex桌面App(Mac/Windows)
2. Codex → Plugins → 添加Chrome插件
3. 按引导装Chrome Web Store扩展
4. 批准Chrome权限
5. 确认扩展”Connected”
然后:@Chrome 帮我…… 完事。
浏览器自动化的核心矛盾,从来不是”AI能不能点按钮”,而是”AI能不能以你的身份点按钮”。
Playwright MCP解决了第一个问题,Browser Use让点按钮更智能,但都没碰第二个问题。
Codex Chrome扩展第一次把”你的身份”这个维度接了进来。这不是功能升级,是范式切换。
2026年,AI操控浏览器这件事,终于不用再”翻译”了。
#Codex #Agent #浏览器自动化 #OpenAI
*参考资料:OpenAI Codex官方文档(
developers.openai.com/codex)、Playwright MCP文档(playwright.dev)、Browser Use GitHub(github.com/browser-use)、Skyvern文档(skyvern.com)*
*本文配图由AI辅助生成,文字为原创创作*