4月30日,一件事几乎被大多数人忽视了。
xAI向所有开发者开放Grok 4.3:百万token上下文、视频输入和语音克隆,成本降低40%。
百万token上下文、视频输入、语音克隆——这三个词单独拿出来,每个都是独立的重磅更新。
三个同时打包开放,而且降价40%。
这件事发生的时候,所有人都在看DeepSeek和GPT-5.5打架,Grok 4.3几乎被忽略了。
但我研究了两天,发现它有几个地方,比它的声量值得的要多许多。
百万token上下文意味着什么
以前的大模型,上下文窗口是有限的。
常见的限制是32K、128K token。
你把一本书传进去,如果超出上下文限制,它只能”记住”其中一部分,后面的内容它不知道。
百万token是什么概念:大约可以放进去400万个汉字,约等于16本《红楼梦》。
实际使用场景:
把整个公司的产品文档、季报、会议记录全部传进去,然后问”上半年我们在华南区的用户投诉聚焦在哪几类问题”——它能从所有文档里找出来,不是一段一段分析,是全局理解。
语音克隆功能:有用,但要小心
Grok 4.3引入全新的语音克隆套件。
语音克隆的意思是:给Grok一段你自己的录音(一般几十秒到几分钟),它能生成模仿你声音的语音内容。
合规的使用场景:
内容创作者:录制一次自己的声音,之后让AI用你的声音配音,不需要每次都录音。
企业宣传:CEO录一段声音样本,公司AI助手对外沟通时使用这个声音风格。
必须注意的边界:
语音克隆技术本身是中性的,但用来模仿他人声音进行欺诈,在中国属于违法行为(《生成式人工智能服务管理暂行办法》明确规定)。
个人用自己的声音做内容,完全合法合规。
视频输入:AI可以”看”你的视频了
Grok 4.3支持直接上传视频,AI分析视频内容。
实际用法:
把一段会议录屏传给Grok,让它总结讨论要点、提取行动事项。
把一个教学视频传进去,让它整理成文字笔记。
把产品demo视频传进去,让它分析用户操作流程里的卡点。
怎么访问Grok 4.3
API方式:在x.ai申请API密钥,按量付费,降价40%之后的价格对开发者比较友善。
普通用户:X(原Twitter)的Premium用户可以通过grok.x.ai使用,部分功能免费可用。
百万token上下文、视频输入、语音克隆——你最想用哪个功能? 评论区说说——你目前最大的AI使用痛点是什么