Gemini3.5的技术进化，Google是如何平衡性能与算力的

做模型能力对比时常常需要在不同API之间反复测试，leadhi.cn这类AI模型聚合平台可以把多个主流模型放在同一界面下直接对比，省去逐个配置环境的精力。

一个反直觉的实际

大模型行业过去两年的主旋律是”越大越好”。参数从千亿卷到万亿，训练集群从千卡卷到万卡。但Gemini 3.5 Flash走了一条相反的路——它比上一代旗舰3.1 Pro更小，但在多项关键指标上反超了旗舰。

Terminal-Bench编码测试76.2%对比3.1 Pro的70.3%。GDPval-AA真实编程能力1656 Elo对比3.1 Pro的1314 Elo。MCP Atlas代理基准83.6%对比78.2%。同时输出速度达到每秒289个token，是GPT-5.5和Claude的4倍。价格比上代旗舰便宜40%。

更快、更强、更便宜。这三件事同时发生在同一个模型上。Google是怎么做到的？

知识蒸馏：让小模型学到大模型的推理能力

Gemini 3.5 Flash的底层技术之一是知识蒸馏。简单说就是用一个更大的”教师模型”来训练这个”学生模型”。

教师模型很可能是尚未公开的Gemini 3.5 Ultra。它把推理过程、解题策略、知识关联这些”软信息”传递给Flash，而不只是让Flash死记硬背训练数据。

结果是Flash继承了超大模型的”逻辑脑”而非”知识库”。它在干活型benchmark上表现突出——编码、Agent工作流、多模态理解——但在考试型benchmark上有所取舍。HLE上40.2%对比3.1 Pro的44.4%，ARC-AGI-2上72.1%对比77.1%。

这是Google有意为之。产品做久了的人都知道，真正难的不是再加一个能力，是决定砍掉哪个能力。

MoE架构：256个专家只激活4个

混合专家模型（MoE）不是新概念，但Gemini 3.5 Flash把专家数量拉到了256个。每次推理只激活其中4个。

传统MoE一般只有8到16个专家。256个专家意味着模型能覆盖更细分的知识领域——编程、数学、多语言、多模态各自有专门的”专家组”。但每次推理只用4个，所以计算量并没有随着专家数量线性增长。

这个架构的核心思想是：模型的总知识量可以很大，但每次处理一个具体问题时只需要一小部分知识。就像一家大公司有几百个部门，但每个项目只需要几个人参与。

从工程角度看MoE架构带来了一个额外好处：不同专家可以并行部署在不同硬件上，单次推理的延迟取决于4个专家中最慢的那个而不是256个的总和。这对控制TTFT（首字输出时间）至关重大。

TTFT优化：65毫秒的首字响应

Gemini 3.5 Flash的TTFT（首字输出时间）达到了65毫秒以内。人类眨一次眼需要100到150毫秒。模型的首次响应比眨眼还快。

这个数字对用户体验的影响比输出速度更直接。输出速度快意味着后续token来得快，但TTFT短意味着”按完回车到看到第一个字”的等待几乎没有。

65毫秒背后是多项工程优化的叠加：MoE的4专家并行推理、推理图的算子融合、KV缓存的预加载、以及针对Flash模型定制的推理内核。每一项单独看都是常规优化，但叠加在一起产生了质变。

四档思考强度：按需分配算力

这是Gemini 3.5系列中最具工程美感的设计。

四个档位——Minimal、Low、Medium、High——本质上是对推理深度的精细控制。简单问题用Minimal档几乎零延迟响应，复杂推理用High档启用完整的思维链。

实测按任务复杂度切换能省约40%的token消耗。这不是省了一点点——对日处理3万亿token的Google来说40%意味着巨大的算力节省。

Dynamic Thinking更进一步。模型根据任务复杂度自动分配推理预算，开发者不需要手动干预。这跟OpenAI让开发者直接设置推理深度、Anthropic的thinking budget策略都不同——Google选择让模型自己判断。

从算力经济学角度看四档思考强度的本质是”按需计费”。简单查询消耗的算力和复杂推理消耗的算力可以差出数倍，但用户只为自己需要的推理深度买单。

100万token上下文的工程代价

100万token的上下文窗口听起来很美好，但背后的工程代价不小。注意力机制的计算复杂度跟序列长度的平方成正比。100万token的注意力计算量是128K的60多倍。

Google的做法是多管齐下：稀疏注意力机制只计算关键位置的注意力、KV缓存复用避免重复计算、分层缓存策略把稳定内容放在快速存储中。

实测中32K填充后的质量衰减约5%。这个数字说明100万token不是噱头而是真正可用的——至少在信息检索和文档理解场景下如此。

但从投资角度看100万token窗口的真正价值不在”能装多少”而在”能省多少”。以前处理一份200页的合同需要RAG检索加Chunking切分加手动拼接，目前一个提示词搞定。整套RAG基础设施的成本被省掉了。

对产业链的启示

Google在Gemini 3.5 Flash上的技术选择反映了一个产业级趋势：AI基础设施正在从”能力竞赛”转向”效率竞赛”。

几个值得投资者关注的方向：

推理效率优化。 MoE架构、四档思考强度、Dynamic Thinking——这些技术的核心目标是用更少的算力完成一样质量的推理。当推理算力成为市场主力（TrendForce预估2026年占比55%），效率优化技术的价值会被重新定价。

模型压缩与蒸馏。 Flash用更小的体量超越上一代旗舰，说明知识蒸馏技术已经成熟到可以产生商业价值。关注拥有高质量”教师模型”的厂商。

上下文工程。 100万token窗口让许多以前需要额外基础设施的场景变得简单。RAG、向量数据库、文档切分工具的市场逻辑可能需要重新评估。

趋势判断

Gemini 3.5 Flash证明了一件事：在大模型行业”做得大”不等于”做得好”。Google选择在Flash上砍掉考试型能力换取干活型能力的跃升，同时把价格压到上代旗舰的60%。

一流的智能不再意味着一流的价格。当这个逻辑成立时，大模型的潜在市场规模会比之前预估的更大——由于更多场景的经济账开始算得过来了。

提议关注推理效率优化这个赛道。它是AI从”烧钱”走向”赚钱”的关键技术支撑。

内容分享

文章版权归作者所有，未经允许请勿转载。

2023 年一级建造师《公路实务〉考前3贞纸

内容分享

4个月前

050

GitHub Copilot CLI 正式进入全面可用阶段

内容分享

3个月前

040

印尼燕窝正品孕妇燕盏干盏即食燕碎燕条泰国马来西亚燕角补品女性

内容分享

1个月前

050

暂无评论

暂无评论...

Gemini3.5的技术进化，Google是如何平衡性能与算力的

一个反直觉的实际

知识蒸馏：让小模型学到大模型的推理能力

MoE架构：256个专家只激活4个

TTFT优化：65毫秒的首字响应

四档思考强度：按需分配算力

100万token上下文的工程代价

对产业链的启示

趋势判断

不用额外装AI工具，Edge浏览器已内置Gemini 3.1 Pro

谷歌Gemini3.5 Flash：实测成本超3.1 Pro75%，智力遭开发者群嘲

相关文章

2023 年一级建造师《公路实务〉考前3贞纸

推荐一款强大的Java表达式引擎MVEL

GitHub Copilot CLI 正式进入全面可用阶段

印尼燕窝正品孕妇燕盏干盏即食燕碎燕条泰国马来西亚燕角补品女性

暂无评论

热门网站

Apple Developer

小苹果网页助手

主页 | 战网

五姑娘影院首页-五姑娘影院在线观看免费版电视剧

3699小游戏

中华彩讯

热门文章

OpenClaw+RAG实操：让AI告别 hallucination，PDF检索一步到位

当在浏览器中输入google.com并且按下回车之后发生了什么

硬件加速与软件控制：FPGA与单片机的本质分野

在Vue3中引入echarts

CentOS 7下安装Python 3.10的完整过程

ubuntu搭建k8s：The connection to the server localhost:8080 was refused – did you specify the right h…

Gemini3.5的技术进化，Google是如何平衡性能与算力的

一个反直觉的实际

知识蒸馏：让小模型学到大模型的推理能力

MoE架构：256个专家只激活4个

TTFT优化：65毫秒的首字响应

四档思考强度：按需分配算力

100万token上下文的工程代价

对产业链的启示

趋势判断

不用额外装AI工具，Edge浏览器已内置Gemini 3.1 Pro

谷歌Gemini3.5 Flash：实测成本超3.1 Pro75%，智力遭开发者群嘲

相关文章

热门网站

Apple Developer

小苹果网页助手

主页 | 战网

五姑娘影院首页-五姑娘影院在线观看免费版电视剧

3699小游戏

中华彩讯

热门文章

标签云