SaaS-Bench AI办公能力大考:Claude Opus通过率仅3.8%,全自动办公幻想破灭

全能 AI 聚合平台 免费

一站式接入主流 AI 大模型,支持对话 · 生图 · 生视频,即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama
AI对话 AI生图 AI视频
免费使用 →

> 2026年5月,SaaS-Bench发布的一项AI Agent办公能力评测结果,为火热的“全自动办公”叙事泼下一盆冷水。在涵盖106个真实跨应用长流程任务的测试中,表现最优的Claude Opus 4.7端到端完全通过率仅为3.8%。这一数据远低于公众预期,清晰划出了当前人工智能在复杂工作场景中的能力边界。## 评测环境:复刻“脏乱差”的真实职场此次评测并非传统的实验室测试。Workspace-Bench 1.0构建了五个真实岗位的“数字工作站”,覆盖运营经理、产品经理等角色,整个环境包含**20,476个文件**、74种文件类型,最大单个工作站堆有**11,020个文件**,目录深度达8层。评测围绕388个带有文件依赖图的任务展开,平均每个任务需要解析**5.1条依赖边**、跨越**4.7个不同文件**,并用7,399条细粒度标准检验过程与结果。> 一个代表性任务是让AI生成全球市场产品策略报告。它要求自主找到9个核心文件,连接订单CSV、物流PDF等多源材料,分析五个市场的销售额与利润率,最终生成格式正确的报告,并通过25条标准验证。## 模型表现:顶级AI在复杂流程前集体“翻车”在这一高度仿真的环境中,各类AI Agent配置的总体通过率约在**27%到60%之间**,平均约为**45.1%**,与人类专家配合工具**80.7%**的通过率存在显著差距。即便是在编程等专项评测中表现顶尖的模型,也在此折戟。- **Claude Opus 4.7**:在SWE-bench Verified上得分高达87.6%,但在跨应用办公长流程中通过率不足4%。- **GPT与Gemini系列**:在另一项针对模糊需求的研究中,当提供提问工具时,GPT 5.4在软件工程任务完成率从实验室的88%暴跌至**1.3%**;Gemini 3.1 Pro则从85%跌至5%。研究揭示了不同的失败模式:GPT系列常“无知者无畏”地直接执行;Gemini会提问但常偏离重点;Claude虽能感知信息不足,却仍会提交错误答案,并消耗更多计算资源。## 失败根源:从“闭环答题”到“开放解题”的鸿沟AI在真实办公中表现不佳,核心在于其能力与场景需求的不匹配。- **任务开放性**:实验室任务信息完备,而真实工作需AI主动寻找文件、确认模糊需求,当前模型缺乏“搞清需求”的主动性。- **长流程注意力**:安排跨时区会议等任务涉及多步骤串联,AI在长周期工作中容易“掉链子”,难以维持连贯的注意力与逻辑。- **不确定性处理**:面对“整理客户反馈”这类模糊指令,AI要么硬着头皮瞎猜,要么直接放弃,缺乏与人类沟通确认的机制。## 行业演进:模型能力提升与全栈方案破局尽管面临挑战,AI Agent领域仍在快速迭代。模型基础能力持续突破,例如阿里云发布的**千问3.7-Max**在多项编程、推理评测中超越前代及部分国际模型。产业层面开始出现全栈解决方案,阿里云近期完成了“芯片-云-模型-推理”的全栈Agent化升级,将计算与工具调用统一迁移至云端沙箱,旨在解决本地部署的权限与安全问题。同时,评测体系本身也在向更真实演进。上海AI实验室发布的WildClawBench包含了需要处理图片、视频及模拟多轮社交协调的任务,进一步考验AI的多模态与复杂交互能力。## 未来定位:从“替代者”转向“协作者”此次评测撕碎了“AI全自动办公”的短期幻想,但明确了其现实价值——成为高效的“办公助手”,而非“全能员工”。安全是AI从“思考者”变为“执行者”必须跨越的门槛。近期走红的“龙虾agent”需要深度本地权限,带来数据泄露风险;而**云端执行方案**通过物理隔离,在不触碰本地系统的情况下完成计算,提供了更稳健的路径。未来的办公图景将是深度人机协作:AI负责处理规则明确、重复繁琐的流程化任务;人类则专注于决策、创意和解决不确定性。AI正在改变工作方式,但距离“躺平式全自动”,仍有很长的路要走。

© 版权声明

相关文章

暂无评论

none
暂无评论...