Codex直接把手伸进了Chrome，真正实现浏览器自动化

内容分享3小时前发布

0 0 0

2026年5月7日，OpenAI往Chrome里塞了个AI Agent。

不是侧边栏助手，不是网页总结插件，是一个能直接操控你浏览器、带着你的登录态、跨标签页干活的Agent。

这事为什么重大？由于在此之前，所有AI Agent操控浏览器的方式，都隔着一层”翻译”。

现有Agent操控浏览器的三种路子，各有各的痛

目前AI Agent想操控浏览器，主要走三条路：

路子一：Playwright MCP——”翻译官模式”

Playwright MCP是当前最主流的方案。Claude Code、Cline、Cursor等Agent都在用它。

原理：Agent不直接碰浏览器，通过MCP协议调用Playwright的工具——browser_navigate、browser_click、browser_snapshot。

Agent说”点击登录按钮”，MCP翻译成Playwright指令，Playwright再操作浏览器。

问题：它用的是无状态浏览器实例。每次启动一个干干净净的Chromium，没你的Cookie、没登录态、没扩展。想访问Gmail？先登录。想操作内网？先登录。而且它用Accessibility Snapshot理解页面，碰到Canvas渲染、SVG界面直接瞎了。

翻译官很听话，但他不认识你。每次见面都得重新自我介绍。

路子二：Browser Use——”实习生模式”

Browser Use是开源界最火的方案，78000+ GitHub Stars，还有自己的微调模型bu-30b。

它用视觉模型看页面截图，理解布局，然后决策操作。比Playwright MCP强在不用选择器了，网站改版影响小。

但问题同样明显：还是得起一个新浏览器实例。你Chrome里那些已登录的网站、保存的密码、安装的扩展，统统用不了。

实习生很能干，但他没有你的工牌。进不了需要门禁的房间。

路子三：Skyvern/Stagehand——”外包模式”

Skyvern基于Playwright扩展加AI能力，Stagehand是TypeScript SDK嵌入Playwright。它们解决了验证码处理、代理轮换、反爬对抗等工程问题，但本质上还是无状态浏览器+API调用，登录态的问题照样存在。

更适合批量爬取、表单填充这类”无人值守”场景，不适合”用我的身份去操作”的场景。

外包很专业，但他们签的是服务合同，不是你的授权书。

Codex Chrome扩展：不翻译、不模拟、不外包——直接用你的Chrome

Codex Chrome扩展走的完全不是上面三条路。

它不做翻译。Agent直接在你的Chrome里操作，不需要MCP协议中转。

它不起新浏览器。用的是你正在运行的Chrome，带着你的Cookie、登录态、扩展、书签。

它不是外包。它就是你——你在Chrome里能干什么，它就能干什么。

打个比方：Playwright MCP是给你配了个翻译官，每次见面要重新介绍自己。Browser Use是招了个实习生，能力不错但没工牌。Codex Chrome扩展是直接把你的手替了——你的指纹、你的权限、你的身份，全都在。

前三种方案是”AI操控一个浏览器”，Codex是”AI操控你的浏览器”。差了两个字，差了一个维度。

五层对比：Codex凭什么不一样

Codex直接把手伸进了Chrome，真正实现浏览器自动化

三种方案对比

维度	Playwright MCP	Browser Use	Skyvern/Stagehand	Codex Chrome
登录态	❌ 无状态	❌ 无状态	❌ 无状态	✅ 用你的Chrome
页面理解	Accessibility快照	视觉截图	DOM+视觉混合	完整访问+截图
抗改版	❌ 依赖选择器	✅ 视觉理解	⚠️ 部分抗改版	✅ 语义+视觉
使用门槛	配MCP+Playwright	Python+LLM API	部署SDK	装个扩展就行
适用场景	开发测试	自动化任务	企业批量流程	需登录态操作

Codex直接把手伸进了Chrome，真正实现浏览器自动化

五层对比

前三种解决的是”AI能不能操控浏览器”，Codex解决的是”AI能不能用你的身份操控浏览器”。

这是两个不同的问题。前者是技术能力问题，后者是信任与授权问题。

三个只有Codex能做的场景

Codex直接把手伸进了Chrome，真正实现浏览器自动化

三个独有场景

场景一：跨系统数据同步

销售在Salesforce录了客户信息，客服在飞书也要建记录。两个SaaS不通API。

Playwright MCP？先手动登录两个系统再说。Browser Use？同上。

Codex：@Chrome 把Salesforce里今天新增的客户同步到飞书。它打开两个标签页，带着你的登录态读一个填一个。

场景二：内网系统操作

公司那个没API、没导出按钮的老旧ERP，每月手动搬数据。

传统方案？得先导出Cookie注入无状态浏览器，过期了又得重来。

Codex：@Chrome 打开ERP，把上个月销售数据整理成表格。你的Chrome本来就登录着，直接操作。

场景三：浏览器历史与上下文

你想让Agent”查一下我昨天在Chrome里看的那篇关于CXL的文章”。

传统方案？做不到。它们访问不了你的浏览历史。

Codex可以。它能在授权后读取你的Chrome浏览历史，找到你昨天看过的页面。

安全：三层锁，不是敞开门

Codex直接把手伸进了Chrome，真正实现浏览器自动化

三层安全防护

AI操控你的Chrome，最怕什么？它偷偷打开你的银行。

第一层：网站门禁。访问每个新网站前都会问你，可选”这次允许”、”永远允许”或”拒绝”。

第二层：操作确认。关键动作（提交表单、发消息）需你在Codex App确认。

第三层：域名黑白名单。设置里直接把银行网站拉进黑名单，它连问都不会问。

不是”把钥匙给AI”，是”AI每次开门前都问你一声”。

它做不了什么？三个诚实回答

第一，大规模爬虫。每步操作走LLM推理，慢且贵。10万条数据？Scrapy才是正解。

第二，无头批量任务。它要Chrome在前台跑，不能像Puppeteer在服务器上静默执行。

第三，CI/CD测试管线。自动化回归测试还是Playwright/Cypress的主场。

它填的是”需要登录态+语义理解”这个空档，不是替代所有浏览器自动化方案。

五分钟上手

Codex直接把手伸进了Chrome，真正实现浏览器自动化

五分钟上手步骤

1. 装Codex桌面App（Mac/Windows）

2. Codex → Plugins → 添加Chrome插件

3. 按引导装Chrome Web Store扩展

4. 批准Chrome权限

5. 确认扩展”Connected”

然后：@Chrome 帮我…… 完事。

浏览器自动化的核心矛盾，从来不是”AI能不能点按钮”，而是”AI能不能以你的身份点按钮”。

Playwright MCP解决了第一个问题，Browser Use让点按钮更智能，但都没碰第二个问题。

Codex Chrome扩展第一次把”你的身份”这个维度接了进来。这不是功能升级，是范式切换。

2026年，AI操控浏览器这件事，终于不用再”翻译”了。

#Codex #Agent #浏览器自动化 #OpenAI

*参考资料：OpenAI Codex官方文档（
developers.openai.com/codex）、Playwright MCP文档（playwright.dev）、Browser Use GitHub（github.com/browser-use）、Skyvern文档（skyvern.com）*

*本文配图由AI辅助生成,文字为原创创作*