我受够了那种测评文章。找几道明显偏向自己支持的模型的题,宣布胜者——那不叫测评,那叫广告。
我花了三周,设计了100道题,横跨8个维度,全部来自真实工作场景,分别喂给 GPT-4o 和 Claude 3.7 Sonnet,每道题的输出结果都记录下来。目标不是分出高下,是搞清楚各自适合什么。
—
代码:Claude 赢了,但没赢许多
15道题,Claude 11分,GPT-4o 9分。
Claude 的优势聚焦在两类:大段重构——它给出的结构比 GPT-4o 清晰,拆分粒度更合理,GPT 有时会过度设计,加一堆用不到的抽象层;报错分析——Claude 定位问题更快,还会主动说”这个报错一般还伴随另一个问题,顺便看一下”。
GPT-4o 的优势是知识覆盖面更广,一些冷门库的用法它能答出来,Claude 有时给的答案接近正确但差一点。
—
长文本:Claude 碾压
没有悬念。把一份 40 页技术文档喂进去,Claude 的摘要准确、分层清晰,GPT-4o 在几个细节上有偏差,还有两处逻辑关系理解错了。测中文长文差距更明显——Claude 对中文语义的把握好一个档次,长段落里的逻辑关系不会混淆。
—
逻辑推理:GPT-4o 意外不错
这是最让我意外的维度。12道题,GPT-4o 拿 9 分,Claude 拿 8 分。
GPT 在”陷阱题”上比 Claude 好——那种看起来像逻辑题但实际需要常识判断的题,Claude 有时会想太多,推理链走太远,绕远了。数学方面两个都一般,超过高中难度基本都开始出错,没有本质区别。
—
创意写作:两个方向,各有擅长
GPT-4o 写出来的东西更顺,更像大众读物,广告文案直接用没问题。Claude 的质感更好,用词更讲究,但有时在应该简洁的地方搞太文艺,品牌文案反而不对味。
我的实际用法:广告和社媒内容用 GPT,有深度的长文和故事叙述用 Claude。
—
中文表达:Claude 明显更自然
Claude 的中文读起来更像人写的,句子有节奏感,不会每段都是”第一其次最后”那套。GPT 的中文有股机翻腔,总结列举时尤其明显。写给中文读者的内容,Claude 生成后改动量更小。
—
指令遵循:各有利弊
Claude 更严格执行,几乎不越界。GPT-4o 有时会”创造性解读”你的要求,在 JSON 外面加一段说明。但 Claude 的严格是双刃剑:你的指令不准确时,它会严格按字面意思走;GPT 反而会猜你的意图,有时猜对了。
—
边界策略:GPT 更保守,Claude 更直接
GPT 的拒绝率更高,有时正常技术问题也触发免责声明。Claude 处理同类问题更干脆,不会动不动加”我需要提醒你……”
—
综合结论
Claude 更适合:中文内容创作、长文档处理、代码重构和报错分析、需要严格按格式输出的场景。
GPT-4o 更适合:需要覆盖更广知识面、广告和大众化内容、逻辑陷阱题、以及你的指令描述不够准确时。
如果只能选一个,我日常会选 Claude,由于我主要做中文写作和代码工作。但如果你的场景更多是英文创意内容或冷门领域,GPT-4o 可能更合适。
现实情况是:两个都订,按场景切换,才是最省力的做法。