做模型能力对比时常常需要在不同API之间反复测试,leadhi.cn这类AI模型聚合平台可以把多个主流模型放在同一界面下直接对比,省去逐个配置环境的精力。

一个反直觉的实际
大模型行业过去两年的主旋律是”越大越好”。参数从千亿卷到万亿,训练集群从千卡卷到万卡。但Gemini 3.5 Flash走了一条相反的路——它比上一代旗舰3.1 Pro更小,但在多项关键指标上反超了旗舰。
Terminal-Bench编码测试76.2%对比3.1 Pro的70.3%。GDPval-AA真实编程能力1656 Elo对比3.1 Pro的1314 Elo。MCP Atlas代理基准83.6%对比78.2%。同时输出速度达到每秒289个token,是GPT-5.5和Claude的4倍。价格比上代旗舰便宜40%。
更快、更强、更便宜。这三件事同时发生在同一个模型上。Google是怎么做到的?
知识蒸馏:让小模型学到大模型的推理能力
Gemini 3.5 Flash的底层技术之一是知识蒸馏。简单说就是用一个更大的”教师模型”来训练这个”学生模型”。
教师模型很可能是尚未公开的Gemini 3.5 Ultra。它把推理过程、解题策略、知识关联这些”软信息”传递给Flash,而不只是让Flash死记硬背训练数据。
结果是Flash继承了超大模型的”逻辑脑”而非”知识库”。它在干活型benchmark上表现突出——编码、Agent工作流、多模态理解——但在考试型benchmark上有所取舍。HLE上40.2%对比3.1 Pro的44.4%,ARC-AGI-2上72.1%对比77.1%。
这是Google有意为之。产品做久了的人都知道,真正难的不是再加一个能力,是决定砍掉哪个能力。
MoE架构:256个专家只激活4个
混合专家模型(MoE)不是新概念,但Gemini 3.5 Flash把专家数量拉到了256个。每次推理只激活其中4个。
传统MoE一般只有8到16个专家。256个专家意味着模型能覆盖更细分的知识领域——编程、数学、多语言、多模态各自有专门的”专家组”。但每次推理只用4个,所以计算量并没有随着专家数量线性增长。
这个架构的核心思想是:模型的总知识量可以很大,但每次处理一个具体问题时只需要一小部分知识。就像一家大公司有几百个部门,但每个项目只需要几个人参与。
从工程角度看MoE架构带来了一个额外好处:不同专家可以并行部署在不同硬件上,单次推理的延迟取决于4个专家中最慢的那个而不是256个的总和。这对控制TTFT(首字输出时间)至关重大。
TTFT优化:65毫秒的首字响应
Gemini 3.5 Flash的TTFT(首字输出时间)达到了65毫秒以内。人类眨一次眼需要100到150毫秒。模型的首次响应比眨眼还快。
这个数字对用户体验的影响比输出速度更直接。输出速度快意味着后续token来得快,但TTFT短意味着”按完回车到看到第一个字”的等待几乎没有。
65毫秒背后是多项工程优化的叠加:MoE的4专家并行推理、推理图的算子融合、KV缓存的预加载、以及针对Flash模型定制的推理内核。每一项单独看都是常规优化,但叠加在一起产生了质变。
四档思考强度:按需分配算力
这是Gemini 3.5系列中最具工程美感的设计。
四个档位——Minimal、Low、Medium、High——本质上是对推理深度的精细控制。简单问题用Minimal档几乎零延迟响应,复杂推理用High档启用完整的思维链。
实测按任务复杂度切换能省约40%的token消耗。这不是省了一点点——对日处理3万亿token的Google来说40%意味着巨大的算力节省。
Dynamic Thinking更进一步。模型根据任务复杂度自动分配推理预算,开发者不需要手动干预。这跟OpenAI让开发者直接设置推理深度、Anthropic的thinking budget策略都不同——Google选择让模型自己判断。
从算力经济学角度看四档思考强度的本质是”按需计费”。简单查询消耗的算力和复杂推理消耗的算力可以差出数倍,但用户只为自己需要的推理深度买单。
100万token上下文的工程代价
100万token的上下文窗口听起来很美好,但背后的工程代价不小。注意力机制的计算复杂度跟序列长度的平方成正比。100万token的注意力计算量是128K的60多倍。
Google的做法是多管齐下:稀疏注意力机制只计算关键位置的注意力、KV缓存复用避免重复计算、分层缓存策略把稳定内容放在快速存储中。
实测中32K填充后的质量衰减约5%。这个数字说明100万token不是噱头而是真正可用的——至少在信息检索和文档理解场景下如此。
但从投资角度看100万token窗口的真正价值不在”能装多少”而在”能省多少”。以前处理一份200页的合同需要RAG检索加Chunking切分加手动拼接,目前一个提示词搞定。整套RAG基础设施的成本被省掉了。
对产业链的启示
Google在Gemini 3.5 Flash上的技术选择反映了一个产业级趋势:AI基础设施正在从”能力竞赛”转向”效率竞赛”。
几个值得投资者关注的方向:
推理效率优化。 MoE架构、四档思考强度、Dynamic Thinking——这些技术的核心目标是用更少的算力完成一样质量的推理。当推理算力成为市场主力(TrendForce预估2026年占比55%),效率优化技术的价值会被重新定价。
模型压缩与蒸馏。 Flash用更小的体量超越上一代旗舰,说明知识蒸馏技术已经成熟到可以产生商业价值。关注拥有高质量”教师模型”的厂商。
上下文工程。 100万token窗口让许多以前需要额外基础设施的场景变得简单。RAG、向量数据库、文档切分工具的市场逻辑可能需要重新评估。
趋势判断
Gemini 3.5 Flash证明了一件事:在大模型行业”做得大”不等于”做得好”。Google选择在Flash上砍掉考试型能力换取干活型能力的跃升,同时把价格压到上代旗舰的60%。
一流的智能不再意味着一流的价格。当这个逻辑成立时,大模型的潜在市场规模会比之前预估的更大——由于更多场景的经济账开始算得过来了。
提议关注推理效率优化这个赛道。它是AI从”烧钱”走向”赚钱”的关键技术支撑。