谷歌Gemma4实测：31B打败20倍大模型，手机3G就能跑

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

4 月 2 日凌晨，谷歌放了一个大招。

他们发布了新一代开源模型 Gemma 4，直接把许可证从之前的自定义协议换成了 Apache 2.0——这意味着企业可以拿去商用，不用再担心谷歌哪天改条款。推特上的反应很说明问题：一条中文推文拿到了 1700+ 点赞和 300+ 转发，核心观点只有一个——推理成本被压到接近于零，API 收费模式要被颠覆了。

但情绪之外，Gemma 4 到底带来了什么？我花了两天时间把官方文档和社区反馈都过了一遍，下面是干货。

谷歌Gemma4实测：31B打败20倍大模型，手机3G就能跑

四个尺寸，覆盖从手机到工作站

Gemma 4 这次一口气发了四个版本，策略超级清晰：不同硬件用不同模型，不搞一个巨无霸打天下。

模型	参数规模	推理时激活参数	适用硬件	Arena AI 排名
31B Dense	310 亿	310 亿	80GB GPU / 量化后消费级显卡	全球 #3 (1452 Elo)
26B MoE	260 亿	38 亿	消费级 GPU	全球 #6 (1441 Elo)
E4B	–	40 亿	手机 / 树莓派	–
E2B	–	20 亿	手机 / IoT 设备	–

几个关键数字值得细看。

31B Dense 在 Arena AI 文本排行榜上排第三，Elo 评分 1452。排在它前面的模型参数量动辄是它的 10 到 20 倍。换句话说，谷歌用 310 亿参数做到了别人用几千亿参数才能做到的事情。这个”智能密度”的突破不是渐进式的，而是跨越式的。

26B MoE 更有意思。总参数量 260 亿，但推理时只激活其中 128 个专家里的一部分，实际运算量只相当于 38 亿参数。这意味着响应速度极快，tokens/s 明显优于同级别的 Dense 模型，适合需要低延迟的 Agent 场景。

Benchmark 暴涨：不是小幅提升，是质变

谷歌Gemma4实测：31B打败20倍大模型，手机3G就能跑

跟上一代 Gemma 3 相比，Gemma 4 在核心 benchmark 上的提升幅度接近疯狂：

评测项	Gemma 3	Gemma 4	提升幅度
AIME 2026 (数学)	20.8%	89.2%	+329%
LiveCodeBench (编程)	29.1%	80.0%	+175%
GPQA (科学推理)	42.4%	84.3%	+99%

数学能力从 20.8% 跳到 89.2%，这不是调参调出来的微调改善，而是底层能力的根本性提升。LiveCodeBench 编程能力从 29.1% 到 80.0%，意味着 Gemma 4 已经具备了实用级别的代码生成能力，能真正充当本地代码助手。

这些提升来自 Gemma 4 与 Gemini 3 共享的研究基础。谷歌 DeepMind 团队在架构上做了几个关键创新：

**交替注意力机制**——模型层级交替使用局部滑动窗口注意力（512-1024 tokens）和全局全上下文注意力，兼顾效率和长距离理解能力。

**双重 RoPE 位置编码**——滑动窗口层用标准 RoPE，全局层用比例 RoPE，这个设计让大模型支持 256K 上下文窗口，小模型也能做到 128K。

256K 上下文什么概念？大约相当于一本 300 页的技术书，或者一个中等规模的代码仓库。一次性扔进去让模型理解全部内容，不用再切分上下文窗口。

iPhone 上 3 分钟跑起来：AI Edge Gallery 实测

推特上最火的讨论不是 benchmark 数字，而是一件更接地气的事——Gemma 4 能在 iPhone 上直接跑。

一条获得 2000 点赞的推文是这么说的：

“iPhone 上使用 Gemma-4 大模型，很简单。App Store 上下载 Google AI Edge Gallery，打开软件点击 Agent Skills，下载相应模型，大致 3G 左右，下载完就可以使用了，支持中文。”

我按这个步骤试了一下，的确如此。整个过程：

App Store 搜索 “Google AI Edge Gallery” 下载安装

打开 App，点击 Agent Skills

选择 Gemma 4 模型（E2B 或 E4B），下载大约 3GB

下载完成直接开聊，完全离线，不需要网络

这里有几个重大细节。模型跑在手机芯片上，推理全程离线，你的对话数据不会经过任何服务器。对于在意隐私的用户来说，这是一个质的改变——以前用 ChatGPT、Claude 或者 Gemini，所有对话都要上传到云端处理。目前有了一个真正的本地替代方案。

谷歌跟 Pixel 团队、高通和联发科深度合作，对 E2B 和 E4B 模型做了专门的硬件级优化。这两个模型不仅能在 iPhone 和 Android 手机上跑，还支持树莓派和 NVIDIA Jetson Orin Nano 这类边缘设备。

而且这两个小模型不只是能聊天——它们支持原生视觉和音频输入。你可以拍张照片让模型分析，或者直接语音对话。这在以前是只有云端大模型才有的能力。

Apache 2.0：开源界等了很久的一步

前几代 Gemma 虽然号称”开源”，但用的是谷歌自定义许可证，里面有不少限制条款。企业法务团队看完一般的反应是”再等等”。

Gemma 4 切换到 Apache 2.0，这是开源界最主流的商业友善许可证之一。它意味着：

可以免费商用，不需要向谷歌付费或报备

可以修改模型并分发修改后的版本

可以用来构建闭源商业产品

不会有哪天醒来发现许可条款变了的风险

Hugging Face CEO Clement Delangue 在官方博客中评价：”Gemma 4 在 Apache 2.0 下发布是一个巨大的里程碑。”

这句话的含义很直白——之前 Gemma 系列虽然性能不错，但许可证问题让许多企业止步。目前这个障碍彻底消除了。

对 API 收费模式的冲击有多大？

推特上讨论最热烈的话题是 Gemma 4 对 OpenAI、Anthropic 等 API 按量计费模式的冲击。

谷歌Gemma4实测：31B打败20倍大模型，手机3G就能跑

逻辑很简单：当一个性能足够强的模型可以在本地免费运行时，为什么还要为每次 API 调用付费？

但实际情况比这复杂。Gemma 4 31B 的确强，但它毕竟只是 310 亿参数的模型。在复杂的长链推理、多轮对话一致性、以及处理高度模糊指令等场景下，跟 GPT-4o、Claude Opus 这类旗舰模型还是有差距的。

更现实的影响可能是：

**高频、低复杂度的 AI 调用会大量转移到本地。** 代码补全、文档摘要、格式转换、简单问答——这类任务占了 AI API 调用量的大头，但对模型能力的要求并不高。Gemma 4 的 26B MoE 模型只激活 38 亿参数就能处理这些场景，而且完全免费。

**Agent 工作流的成本结构会改变。** 一个 AI Agent 在执行复杂任务时，可能需要做几十上百次的工具调用和中间推理。如果每次都走云端 API，费用会迅速累积。本地部署 Gemma 4 作为 Agent 的执行引擎，只在需要顶级推理能力时才调用云端大模型，这种混合架构会成为主流。

**开发者的实验成本降到零。** 以前想测试一个 AI 功能的原型，哪怕只是验证可行性，也要先充值 API 余额。目前用 Gemma 4 本地跑就行，想怎么折腾怎么折腾。

生态系统：开箱即用不是空话

Gemma 4 在发布第一天就支持了超过十几个主流推理框架：

**本地推理**：Ollama、llama.cpp、MLX、LM Studio

**服务器部署**：vLLM、SGLang、NVIDIA NIM

**训练微调**：Hugging Face Transformers/TRL、Keras、Unsloth

**模型下载**：Hugging Face、Kaggle、Ollama

如果你用 Mac，直接 `ollama run gemma4` 就能开始；Windows 上也差不多。这种即开即用的体验，跟两年前跑开源模型要折腾半天 CUDA 环境的状况完全不同。

谷歌还在 Google AI Studio 上提供了 31B 和 26B MoE 的在线试用，想先体验效果再决定是否本地部署也完全可以。

Gemmaverse 的规模效应

谷歌在博客中提到了一个数据：自第一代 Gemma 发布以来，开发者累计下载超过 4 亿次，社区创建了超过 10 万个变体模型。

10 万个变体意味着什么？意味着针对各种垂直场景——医疗、法律、金融、教育、多语言——都已经有人基于 Gemma 做了专门的微调版本。Gemma 4 的 Apache 2.0 许可证会进一步加速这个飞轮。

对于普通开发者来说，你不需要从头训练。找一个社区里针对你场景微调过的 Gemma 4 变体，下载下来本地跑就行。

谁应该关注 Gemma 4？

**独立开发者和小团队**——API 费用一直是约束。Gemma 4 让你在零边际成本下构建 AI 功能，不需要担心用量爆炸带来的账单。

**注重隐私的企业**——医疗、金融、法律等行业对数据出境超级敏感。本地部署意味着数据永远不离开你的服务器。

**边缘设备开发者**——IoT、嵌入式、移动端。E2B 和 E4B 模型专门为低功耗场景优化，这是之前开源模型很少覆盖的领域。

**AI Agent 构建者**——Gemma 4 原生支持函数调用和结构化 JSON 输出，可以直接作为 Agent 的推理引擎，不用再套一层 LangChain 之类的中间件做格式适配。

—

谷歌这次的策略很清晰：不再追求用一个最大的模型碾压一切，而是用一个完整的模型家族覆盖所有部署场景，再用 Apache 2.0 许可证消除一切商用顾虑。

从手机到工作站，从边缘设备到云端集群，4 个模型、一套许可证、全场景覆盖。

这可能是开源 AI 领域 2026 年最重大的一次发布。

内容分享

文章版权归作者所有，未经允许请勿转载。

被pandas“绩笑”点醒后，我用3个Python技巧卷赢KPI

内容分享

4个月前

130

Netty：遇到TCP发送缓冲区满了写半包操作该如何处理

内容分享

1个月前

070

mysql select into from 和 insert into select

内容分享

2个月前

040

新详解丨智能语音交互背后的支撑技术

内容分享

2小时前

000

暂无评论

暂无评论...

谷歌Gemma4实测：31B打败20倍大模型，手机3G就能跑

四个尺寸，覆盖从手机到工作站

Benchmark 暴涨：不是小幅提升，是质变

iPhone 上 3 分钟跑起来：AI Edge Gallery 实测

Apache 2.0：开源界等了很久的一步

对 API 收费模式的冲击有多大？

生态系统：开箱即用不是空话

Gemmaverse 的规模效应

谁应该关注 Gemma 4？

重磅实测！安卓离线运行Gemma4，谷歌端侧AI仅2.3秒生成图像

Gemma 4重磅发布！B200/MI355X实测提速15%，多模态大模型再迎变局

相关文章

被pandas“绩笑”点醒后，我用3个Python技巧卷赢KPI

Netty：遇到TCP发送缓冲区满了写半包操作该如何处理

mysql select into from 和 insert into select

新详解丨智能语音交互背后的支撑技术

暂无评论

热门网站

小苹果网页助手

通义

Shopee

腾讯元宝

ChatGPT

Gemini

热门文章

ESP32-S3-WROOM-1-N16R8 对接 PS2 游戏手柄：从硬件到软件的全流程技术指南

超强GPU加速终端Kitty：性能与功能全解析

2025了，别再做1000元的全屋智能了

华为军团就是中国科技产业的诺亚方舟

用Python打造的8个自动化工作流

单片机最好用的程序框架，莫过于状态机了

谷歌Gemma4实测：31B打败20倍大模型，手机3G就能跑

四个尺寸，覆盖从手机到工作站

Benchmark 暴涨：不是小幅提升，是质变

iPhone 上 3 分钟跑起来：AI Edge Gallery 实测

Apache 2.0：开源界等了很久的一步

对 API 收费模式的冲击有多大？

生态系统：开箱即用不是空话

Gemmaverse 的规模效应

谁应该关注 Gemma 4？

重磅实测！安卓离线运行Gemma4，谷歌端侧AI仅2.3秒生成图像

Gemma 4重磅发布！B200/MI355X实测提速15%，多模态大模型再迎变局

相关文章

热门网站

小苹果网页助手

通义

Shopee

腾讯元宝

ChatGPT

Gemini

热门文章

标签云