Codex直接把手伸进了Chrome,真正实现浏览器自动化

内容分享3小时前发布
0 0 0

Codex直接把手伸进了Chrome,真正实现浏览器自动化

2026年5月7日,OpenAI往Chrome里塞了个AI Agent。

不是侧边栏助手,不是网页总结插件,是一个能直接操控你浏览器、带着你的登录态、跨标签页干活的Agent。

这事为什么重大?由于在此之前,所有AI Agent操控浏览器的方式,都隔着一层”翻译”。

现有Agent操控浏览器的三种路子,各有各的痛

目前AI Agent想操控浏览器,主要走三条路:

路子一:Playwright MCP——”翻译官模式”

Playwright MCP是当前最主流的方案。Claude Code、Cline、Cursor等Agent都在用它。

原理:Agent不直接碰浏览器,通过MCP协议调用Playwright的工具——browser_navigate、browser_click、browser_snapshot。

Agent说”点击登录按钮”,MCP翻译成Playwright指令,Playwright再操作浏览器。

问题:它用的是无状态浏览器实例。每次启动一个干干净净的Chromium,没你的Cookie、没登录态、没扩展。想访问Gmail?先登录。想操作内网?先登录。而且它用Accessibility Snapshot理解页面,碰到Canvas渲染、SVG界面直接瞎了。

翻译官很听话,但他不认识你。每次见面都得重新自我介绍。

路子二:Browser Use——”实习生模式”

Browser Use是开源界最火的方案,78000+ GitHub Stars,还有自己的微调模型bu-30b。

它用视觉模型看页面截图,理解布局,然后决策操作。比Playwright MCP强在不用选择器了,网站改版影响小。

但问题同样明显:还是得起一个新浏览器实例。你Chrome里那些已登录的网站、保存的密码、安装的扩展,统统用不了。

实习生很能干,但他没有你的工牌。进不了需要门禁的房间。

路子三:Skyvern/Stagehand——”外包模式”

Skyvern基于Playwright扩展加AI能力,Stagehand是TypeScript SDK嵌入Playwright。它们解决了验证码处理、代理轮换、反爬对抗等工程问题,但本质上还是无状态浏览器+API调用,登录态的问题照样存在。

更适合批量爬取、表单填充这类”无人值守”场景,不适合”用我的身份去操作”的场景。

外包很专业,但他们签的是服务合同,不是你的授权书。

Codex Chrome扩展:不翻译、不模拟、不外包——直接用你的Chrome

Codex Chrome扩展走的完全不是上面三条路。

它不做翻译。Agent直接在你的Chrome里操作,不需要MCP协议中转。

它不起新浏览器。用的是你正在运行的Chrome,带着你的Cookie、登录态、扩展、书签。

它不是外包。它就是你——你在Chrome里能干什么,它就能干什么。

打个比方:Playwright MCP是给你配了个翻译官,每次见面要重新介绍自己。Browser Use是招了个实习生,能力不错但没工牌。Codex Chrome扩展是直接把你的手替了——你的指纹、你的权限、你的身份,全都在。

前三种方案是”AI操控一个浏览器”,Codex是”AI操控你的浏览器”。差了两个字,差了一个维度。

五层对比:Codex凭什么不一样

Codex直接把手伸进了Chrome,真正实现浏览器自动化

三种方案对比

维度

Playwright MCP

Browser Use

Skyvern/Stagehand

Codex Chrome

登录态

❌ 无状态

❌ 无状态

❌ 无状态

✅ 用你的Chrome

页面理解

Accessibility快照

视觉截图

DOM+视觉混合

完整访问+截图

抗改版

❌ 依赖选择器

✅ 视觉理解

⚠️ 部分抗改版

✅ 语义+视觉

使用门槛

配MCP+Playwright

Python+LLM API

部署SDK

装个扩展就行

适用场景

开发测试

自动化任务

企业批量流程

需登录态操作

Codex直接把手伸进了Chrome,真正实现浏览器自动化

五层对比

前三种解决的是”AI能不能操控浏览器”,Codex解决的是”AI能不能用你的身份操控浏览器”。

这是两个不同的问题。前者是技术能力问题,后者是信任与授权问题。

三个只有Codex能做的场景

Codex直接把手伸进了Chrome,真正实现浏览器自动化

三个独有场景

场景一:跨系统数据同步

销售在Salesforce录了客户信息,客服在飞书也要建记录。两个SaaS不通API。

Playwright MCP?先手动登录两个系统再说。Browser Use?同上。

Codex:@Chrome 把Salesforce里今天新增的客户同步到飞书。它打开两个标签页,带着你的登录态读一个填一个。

场景二:内网系统操作

公司那个没API、没导出按钮的老旧ERP,每月手动搬数据。

传统方案?得先导出Cookie注入无状态浏览器,过期了又得重来。

Codex:@Chrome 打开ERP,把上个月销售数据整理成表格。你的Chrome本来就登录着,直接操作。

场景三:浏览器历史与上下文

你想让Agent”查一下我昨天在Chrome里看的那篇关于CXL的文章”。

传统方案?做不到。它们访问不了你的浏览历史。

Codex可以。它能在授权后读取你的Chrome浏览历史,找到你昨天看过的页面。

安全:三层锁,不是敞开门

Codex直接把手伸进了Chrome,真正实现浏览器自动化

三层安全防护

AI操控你的Chrome,最怕什么?它偷偷打开你的银行。

第一层:网站门禁。访问每个新网站前都会问你,可选”这次允许”、”永远允许”或”拒绝”。

第二层:操作确认。关键动作(提交表单、发消息)需你在Codex App确认。

第三层:域名黑白名单。设置里直接把银行网站拉进黑名单,它连问都不会问。

不是”把钥匙给AI”,是”AI每次开门前都问你一声”。

它做不了什么?三个诚实回答

第一,大规模爬虫。每步操作走LLM推理,慢且贵。10万条数据?Scrapy才是正解。

第二,无头批量任务。它要Chrome在前台跑,不能像Puppeteer在服务器上静默执行。

第三,CI/CD测试管线。自动化回归测试还是Playwright/Cypress的主场。

它填的是”需要登录态+语义理解”这个空档,不是替代所有浏览器自动化方案。

五分钟上手

Codex直接把手伸进了Chrome,真正实现浏览器自动化

五分钟上手步骤

1. 装Codex桌面App(Mac/Windows)

2. Codex → Plugins → 添加Chrome插件

3. 按引导装Chrome Web Store扩展

4. 批准Chrome权限

5. 确认扩展”Connected”

然后:@Chrome 帮我…… 完事。


浏览器自动化的核心矛盾,从来不是”AI能不能点按钮”,而是”AI能不能以你的身份点按钮”。

Playwright MCP解决了第一个问题,Browser Use让点按钮更智能,但都没碰第二个问题。

Codex Chrome扩展第一次把”你的身份”这个维度接了进来。这不是功能升级,是范式切换。

2026年,AI操控浏览器这件事,终于不用再”翻译”了。


#Codex #Agent #浏览器自动化 #OpenAI

*参考资料:OpenAI Codex官方文档(
developers.openai.com/codex)、Playwright MCP文档(playwright.dev)、Browser Use GitHub(github.com/browser-use)、Skyvern文档(skyvern.com)*

*本文配图由AI辅助生成,文字为原创创作*

© 版权声明

相关文章

暂无评论

none
暂无评论...