谷歌Gemma4实测:31B打败20倍大模型,手机3G就能跑

内容分享2小时前发布
0 0 0
全能 AI 聚合平台 免费

一站式接入主流 AI 大模型,支持对话 · 生图 · 生视频,即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama
AI对话 AI生图 AI视频
免费使用 →

4 月 2 日凌晨,谷歌放了一个大招。

他们发布了新一代开源模型 Gemma 4,直接把许可证从之前的自定义协议换成了 Apache 2.0——这意味着企业可以拿去商用,不用再担心谷歌哪天改条款。推特上的反应很说明问题:一条中文推文拿到了 1700+ 点赞和 300+ 转发,核心观点只有一个——推理成本被压到接近于零,API 收费模式要被颠覆了。

但情绪之外,Gemma 4 到底带来了什么?我花了两天时间把官方文档和社区反馈都过了一遍,下面是干货。

谷歌Gemma4实测:31B打败20倍大模型,手机3G就能跑

四个尺寸,覆盖从手机到工作站

Gemma 4 这次一口气发了四个版本,策略超级清晰:不同硬件用不同模型,不搞一个巨无霸打天下。

模型

参数规模

推理时激活参数

适用硬件

Arena AI 排名

31B Dense

310 亿

310 亿

80GB GPU / 量化后消费级显卡

全球 #3 (1452 Elo)

26B MoE

260 亿

38 亿

消费级 GPU

全球 #6 (1441 Elo)

E4B

40 亿

手机 / 树莓派

E2B

20 亿

手机 / IoT 设备

几个关键数字值得细看。

31B Dense 在 Arena AI 文本排行榜上排第三,Elo 评分 1452。排在它前面的模型参数量动辄是它的 10 到 20 倍。换句话说,谷歌用 310 亿参数做到了别人用几千亿参数才能做到的事情。这个”智能密度”的突破不是渐进式的,而是跨越式的。

26B MoE 更有意思。总参数量 260 亿,但推理时只激活其中 128 个专家里的一部分,实际运算量只相当于 38 亿参数。这意味着响应速度极快,tokens/s 明显优于同级别的 Dense 模型,适合需要低延迟的 Agent 场景。

Benchmark 暴涨:不是小幅提升,是质变

谷歌Gemma4实测:31B打败20倍大模型,手机3G就能跑

跟上一代 Gemma 3 相比,Gemma 4 在核心 benchmark 上的提升幅度接近疯狂:

评测项

Gemma 3

Gemma 4

提升幅度

AIME 2026 (数学)

20.8%

89.2%

+329%

LiveCodeBench (编程)

29.1%

80.0%

+175%

GPQA (科学推理)

42.4%

84.3%

+99%

数学能力从 20.8% 跳到 89.2%,这不是调参调出来的微调改善,而是底层能力的根本性提升。LiveCodeBench 编程能力从 29.1% 到 80.0%,意味着 Gemma 4 已经具备了实用级别的代码生成能力,能真正充当本地代码助手。

这些提升来自 Gemma 4 与 Gemini 3 共享的研究基础。谷歌 DeepMind 团队在架构上做了几个关键创新:

**交替注意力机制**——模型层级交替使用局部滑动窗口注意力(512-1024 tokens)和全局全上下文注意力,兼顾效率和长距离理解能力。

**双重 RoPE 位置编码**——滑动窗口层用标准 RoPE,全局层用比例 RoPE,这个设计让大模型支持 256K 上下文窗口,小模型也能做到 128K。

256K 上下文什么概念?大约相当于一本 300 页的技术书,或者一个中等规模的代码仓库。一次性扔进去让模型理解全部内容,不用再切分上下文窗口。

iPhone 上 3 分钟跑起来:AI Edge Gallery 实测

推特上最火的讨论不是 benchmark 数字,而是一件更接地气的事——Gemma 4 能在 iPhone 上直接跑。

一条获得 2000 点赞的推文是这么说的:

“iPhone 上使用 Gemma-4 大模型,很简单。App Store 上下载 Google AI Edge Gallery,打开软件点击 Agent Skills,下载相应模型,大致 3G 左右,下载完就可以使用了,支持中文。”

我按这个步骤试了一下,的确 如此。整个过程:

App Store 搜索 “Google AI Edge Gallery” 下载安装

打开 App,点击 Agent Skills

选择 Gemma 4 模型(E2B 或 E4B),下载大约 3GB

下载完成直接开聊,完全离线,不需要网络

这里有几个重大细节。模型跑在手机芯片上,推理全程离线,你的对话数据不会经过任何服务器。对于在意隐私的用户来说,这是一个质的改变——以前用 ChatGPT、Claude 或者 Gemini,所有对话都要上传到云端处理。目前有了一个真正的本地替代方案。

谷歌跟 Pixel 团队、高通和联发科深度合作,对 E2B 和 E4B 模型做了专门的硬件级优化。这两个模型不仅能在 iPhone 和 Android 手机上跑,还支持树莓派和 NVIDIA Jetson Orin Nano 这类边缘设备。

而且这两个小模型不只是能聊天——它们支持原生视觉和音频输入。你可以拍张照片让模型分析,或者直接语音对话。这在以前是只有云端大模型才有的能力。

Apache 2.0:开源界等了很久的一步

前几代 Gemma 虽然号称”开源”,但用的是谷歌自定义许可证,里面有不少限制条款。企业法务团队看完一般的反应是”再等等”。

Gemma 4 切换到 Apache 2.0,这是开源界最主流的商业友善许可证之一。它意味着:

可以免费商用,不需要向谷歌付费或报备

可以修改模型并分发修改后的版本

可以用来构建闭源商业产品

不会有哪天醒来发现许可条款变了的风险

Hugging Face CEO Clement Delangue 在官方博客中评价:”Gemma 4 在 Apache 2.0 下发布是一个巨大的里程碑。”

这句话的含义很直白——之前 Gemma 系列虽然性能不错,但许可证问题让许多企业止步。目前这个障碍彻底消除了。

对 API 收费模式的冲击有多大?

推特上讨论最热烈的话题是 Gemma 4 对 OpenAI、Anthropic 等 API 按量计费模式的冲击。

谷歌Gemma4实测:31B打败20倍大模型,手机3G就能跑

逻辑很简单:当一个性能足够强的模型可以在本地免费运行时,为什么还要为每次 API 调用付费?

但实际情况比这复杂。Gemma 4 31B 的确 强,但它毕竟只是 310 亿参数的模型。在复杂的长链推理、多轮对话一致性、以及处理高度模糊指令等场景下,跟 GPT-4o、Claude Opus 这类旗舰模型还是有差距的。

更现实的影响可能是:

**高频、低复杂度的 AI 调用会大量转移到本地。** 代码补全、文档摘要、格式转换、简单问答——这类任务占了 AI API 调用量的大头,但对模型能力的要求并不高。Gemma 4 的 26B MoE 模型只激活 38 亿参数就能处理这些场景,而且完全免费。

**Agent 工作流的成本结构会改变。** 一个 AI Agent 在执行复杂任务时,可能需要做几十上百次的工具调用和中间推理。如果每次都走云端 API,费用会迅速累积。本地部署 Gemma 4 作为 Agent 的执行引擎,只在需要顶级推理能力时才调用云端大模型,这种混合架构会成为主流。

**开发者的实验成本降到零。** 以前想测试一个 AI 功能的原型,哪怕只是验证可行性,也要先充值 API 余额。目前用 Gemma 4 本地跑就行,想怎么折腾怎么折腾。

生态系统:开箱即用不是空话

Gemma 4 在发布第一天就支持了超过十几个主流推理框架:

**本地推理**:Ollama、llama.cpp、MLX、LM Studio

**服务器部署**:vLLM、SGLang、NVIDIA NIM

**训练微调**:Hugging Face Transformers/TRL、Keras、Unsloth

**模型下载**:Hugging Face、Kaggle、Ollama

如果你用 Mac,直接 `ollama run gemma4` 就能开始;Windows 上也差不多。这种即开即用的体验,跟两年前跑开源模型要折腾半天 CUDA 环境的状况完全不同。

谷歌还在 Google AI Studio 上提供了 31B 和 26B MoE 的在线试用,想先体验效果再决定是否本地部署也完全可以。

Gemmaverse 的规模效应

谷歌在博客中提到了一个数据:自第一代 Gemma 发布以来,开发者累计下载超过 4 亿次,社区创建了超过 10 万个变体模型。

10 万个变体意味着什么?意味着针对各种垂直场景——医疗、法律、金融、教育、多语言——都已经有人基于 Gemma 做了专门的微调版本。Gemma 4 的 Apache 2.0 许可证会进一步加速这个飞轮。

对于普通开发者来说,你不需要从头训练。找一个社区里针对你场景微调过的 Gemma 4 变体,下载下来本地跑就行。

谁应该关注 Gemma 4?

**独立开发者和小团队**——API 费用一直是约束。Gemma 4 让你在零边际成本下构建 AI 功能,不需要担心用量爆炸带来的账单。

**注重隐私的企业**——医疗、金融、法律等行业对数据出境超级敏感。本地部署意味着数据永远不离开你的服务器。

**边缘设备开发者**——IoT、嵌入式、移动端。E2B 和 E4B 模型专门为低功耗场景优化,这是之前开源模型很少覆盖的领域。

**AI Agent 构建者**——Gemma 4 原生支持函数调用和结构化 JSON 输出,可以直接作为 Agent 的推理引擎,不用再套一层 LangChain 之类的中间件做格式适配。

谷歌这次的策略很清晰:不再追求用一个最大的模型碾压一切,而是用一个完整的模型家族覆盖所有部署场景,再用 Apache 2.0 许可证消除一切商用顾虑。

从手机到工作站,从边缘设备到云端集群,4 个模型、一套许可证、全场景覆盖。

这可能是开源 AI 领域 2026 年最重大的一次发布。

© 版权声明

相关文章

暂无评论

none
暂无评论...