马斯克旗下xAI推出Grok 4.3：API降价60%，评测优缺分明排第十

> 在AI巨头密集发布新版本的背景下，埃隆·马斯克旗下的xAI公司悄然推出Grok 4.3。该模型以大幅降低的API定价和特定领域领先的评测得分入场，尝试以性价比策略切入市场，但其在硬推理和综合能力上仍显著落后于头部竞争对手，揭示了xAI在追赶第一梯队道路上的现实挑战。## 悄然发布与激进定价Grok 4.3的发布路径颇为低调。**2026年4月17日**，其Beta版率先上线，但仅面向**SuperGrok Heavy付费会员**开放，该会员订阅费用为**300美元/月**。一个月后，即**5月1日**，Grok 4.3的API正式对外开放。其定价策略成为最受关注的焦点：- **输入成本为每百万token 1.25美元**- **输出成本为每百万token 2.50美元**这一价格较其前代Grok 4.20**降低了约60%**。与同期发布的GPT-5.5相比（输入5美元/百万token，输出30美元/百万token），Grok 4.3在价格上展现出显著优势。## 跑分成绩：优势与短板分明独立评测机构Artificial Analysis的最新数据显示，Grok 4.3在Intelligence Index排行榜中综合得分为**53分**，位列第10名，较上一代Grok 4.20提升了4分。![](blockview://markdown-image-tos-cn-i-tt/d15edbb0a4724686ac77fa15307a708c)**其表现突出的领域聚焦于指令执行与特定任务：**- **IFBench（指令跟随）测试得分81%**，位列全榜第一。xAI模型从Grok 4.20开始就在此项保持领先。- **τ²-Bench Telecom（客服Agent任务）测试得分98%**，与其他顶级模型并列第一。- 在衡量真实工作能力的GDPval-AA评测中，得分从上一代的1179分跃升至**1500分**，上涨321分。按Elo公式计算，其对上一代的胜率超过87%，并超越了谷歌Gemini 3.1 Pro Preview等模型。**不过，其在硬核推理与复杂操作任务上短板明显：**- Terminal-Bench Hard（终端命令任务）得分仅**38%**，在处理写命令、读日志、调试等任务上明显落后。- 在CritPt（物理推理）测试中得分**8%**，在Humanity's Last Exam测试中得分**35%**，深度逻辑推理能力不足。## 与第一梯队的差距尽管在部分单项上领先，但Grok 4.3的综合能力尚未触及行业头部。在Artificial Analysis的榜单上，其排名不仅落后于**GPT-5.5**和**Claude Opus 4.7**，也排在小米MiMo-V2.5-Pro等三大国产模型之后。关键能力差距体目前：- **GPT-5.5**在测评复杂命令行任务的Terminal-Bench 2.0中得分高达**82.7%**，远超Grok 4.3，并在自主操作计算机、知识工作等多领域领先。![](blockview://markdown-image-tos-cn-i-tt/5bfeac3f9a9348c8b31a412539313190)- **Claude Opus 4.7**在编程精度（SWE-bench Verified得分87.6%）和高分辨率视觉能力上优势显著。- **Gemini 3.1 Pro**在深度推理（ARC-AGI-2得分77.1%）等方面表现突出。## 高服从度背后的安全隐忧Grok在指令跟随能力上的强势表现，也引发了对其安全性的关注。有观点指出，指令跟随能力过强可能意味着模型对恶意指令的服从度更高，从而更容易被“越狱”或“破限”。> 约翰·霍普金斯大学的研究揭示，AI对指令冲突的判断可能受到优先级数字格式的细微影响，在测试中，仅改变标记格式，超过8%的答案会发生翻转。研究团队坦言，这种精细的指令层级机制存在被滥用的风险，例如通过高优先级恶意指令操纵AI行为。这指向了一个更宏观的AI安全问题：当模型能够被任意来源的指令影响时，提示注入、系统提示词提取等攻击就成为可能。## 性价比路线与生态布局面对性能差距，xAI似乎选择了差异化竞争策略。除了低价API，公司同期发布了**Grok Voice Think Fast 1.0**语音智能体，并已将其应用于Starlink电话业务，强化在语音交互场景的布局。此外，**Grok Build**编程工具预计将于下周发布Beta版，正式加入编程赛道的竞争。马斯克此前透露，参数规模达**1T的旗舰版模型**训练已接近完成，预计将在编码、长上下文等能力上实现阶跃式提升。这或许是xAI追赶头部模型的下一张牌。## 结论：细分市场的机会主义者Grok 4.3的发布，标志着xAI正以**高性价比**和**垂直领域专精**作为当前的市场切入点。对于成本敏感、且需求聚焦于客服、标准化流程处理或语音交互的企业用户而言，它提供了一个有吸引力的选项。不过，在需要深度推理、复杂编程和高度稳定性的核心AI竞争赛道上，Grok 4.3证明，xAI仍需在基础能力上实现实质性突破，才能缩小与行业领袖的差距。