安装 Gemma 4主要有四种主流方式,每种适用于不同场景。Ollama 是最简单快速的入门选择,而 **Hugging Face Transformers** 和 **llama.cpp** 则适合开发者进行更精细的控制。
快速选择(根据您的场景)
| 场景 | 推荐方法 | 说明 |
|——|———-|——|
| **只想快速体验,避免复杂配置** | **Ollama** | 一键安装、自动下载模型、命令行交互,适合新手 |
| **需要图形界面,不愿碰终端** | **Unsloth Studio** | 提供 Web 界面,点选下载、聊天,支持图片理解 |
| **开发者,需要集成到 Python 项目** | **Hugging Face Transformers** | 通过 `pip` 安装,支持全精度/量化加载,适合微调、开发 |
| **追求极致性能与控制,或资源有限** | **llama.cpp** | 编译后运行 GGUF 量化模型,CPU/GPU 混合推理,节省显存 |
| **显存有限(8‑16GB)** | Ollama(选 `gemma4:e4b`)或 Unsloth(Q3/Q4 量化) | 使用小参数模型或低比特量化 |
| **有 24GB+ VRAM,追求高质量** | 任何方法 + Q4_K_M / Q5_K_M 量化 | 可运行 31B 模型,保持较好生成质量 |
方法一:Ollama(推荐初学者)
1. 安装 Ollama
根据系统选择:
– **Linux/macOS**(终端执行):
“`bash
curl -fsSL https://ollama.com/install.sh | sh
“`
– **macOS**(也可用 Homebrew):
“`bash
brew install –cask ollama
“`
– **Windows**:访问 [ollama.com/download](
https://ollama.com/download) 下载安装程序。
安装后验证:
“`bash
ollama –version
“`
2. 拉取 Gemma 4 模型
Ollama 提供了多个版本的 Gemma 4,根据硬件选择:
| 模型版本 | 参数量 | 适用场景 |
|———-|——–|———-|
| `gemma4:e2b` | 2.3B | CPU 或低显存(≤6GB) |
| `gemma4:e4b` | 4B | 平衡选择,显存 8‑12GB |
| `gemma4:26b` | 26B | 显存 ≥12GB,质量更高 |
| `gemma4:31b` | 31B | 显存 ≥16GB,最高质量 |
拉取命令(提议先试用 `e4b`):
“`bash
ollama pull gemma4:e4b
“`
3. 运行模型
– **交互式聊天**:
“`bash
ollama run gemma4:e4b
“`
– **单次提问**:
“`bash
ollama run gemma4:e4b “roses are red”
“`
4. 使用 API
Ollama 在本地启动 API 服务(端口 11434),可用 `curl` 或 Python 调用:
“`python
import requests
response = requests.post('http://localhost:11434/api/generate', json={
“model”: “gemma4:e4b”,
“prompt”: “为什么本地 AI 很重大?”,
“stream”: False
})
print(response.json()['response'])
“`
—
方法二:Hugging Face Transformers(适合开发者)
1. 安装依赖
“`bash
pip install -U transformers torch accelerate
# 如需多模态(图片)支持
pip install -U torchvision
“`
2. 加载并运行模型(4‑bit 量化,约需 18GB VRAM)
“`python
from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig
import torch
MODEL_ID = “google/gemma-4-31B-it”
# 4-bit 量化配置(节省显存)
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16
)
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
quantization_config=quantization_config,
device_map=”auto”
)
# 构建对话
messages = [
{“role”: “system”, “content”: “你是一个有用的助手。”},
{“role”: “user”, “content”: “用简单的话解释量子计算。”},
]
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(text=text, return_tensors=”pt”).to(model.device)
# 生成回复
outputs = model.generate(**inputs, max_new_tokens=512)
response = processor.decode(outputs[0][inputs[“input_ids”].shape[-1]:], skip_special_tokens=True)
print(response)
“`
3. 全精度运行(需 62GB+ VRAM)
若显存充足,可去掉 `quantization_config`,使用 `dtype=”auto”`。
—
方法三:llama.cpp(高性能、跨平台)
1. 编译 llama.cpp
“`bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# 根据硬件选择编译选项
# NVIDIA GPU(CUDA)
cmake -B build -DGGML_CUDA=ON
# Apple Silicon(Metal)
cmake -B build -DGGML_METAL=ON
# 纯 CPU
cmake -B build
cmake –build build –config Release -j$(nproc)
“`
2. 下载 GGUF 量化模型
“`bash
pip install huggingface-hub
# 下载 Q4_K_M 量化(推荐 24GB 显卡)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF
gemma-4-31B-it-Q4_K_M.gguf
–local-dir ./models
“`
3. 运行模型
“`bash
./build/bin/llama-cli
-m ./models/gemma-4-31B-it-Q4_K_M.gguf
-ngl 99 # 将所有层加载到 GPU(显存不足时可减小,如 -ngl 40)
-c 8192 # 上下文长度
–temp 1.0
–top-p 0.95
–top-k 64
-p “You are a helpful assistant.
User: Explain quantum computing in simple terms.
Assistant:”
“`
4. 启动 OpenAI 兼容的 API 服务器
“`bash
./build/bin/llama-server
-m ./models/gemma-4-31B-it-Q4_K_M.gguf
-ngl 99
-c 8192
–host 0.0.0.0
–port 8080
“`
随后可用 `openai` 库调用(API Key 可任意填写):
“`python
from openai import OpenAI
client = OpenAI(base_url=”http://localhost:8080/v1″, api_key=”unused”)
response = client.chat.completions.create(
model=”gemma-4-31b”,
messages=[{“role”: “user”, “content”: “Hello!”}]
)
“`
—
方法四:Unsloth Studio(图形界面)
1. 安装
– **macOS/Linux/WSL**:
“`bash
curl -fsSL https://unsloth.ai/install.sh | sh
“`
– **Windows(PowerShell)**:
“`powershell
irm https://unsloth.ai/install.ps1 | iex
“`
2. 启动
“`bash
unsloth studio -H 0.0.0.0 -p 8888
“`
浏览器打开 `http://localhost:8888`。
3. 下载并运行 Gemma 4
1. 在搜索栏输入 `gemma-4-31B`
2. 选择量化级别(如 Q4_K_M)
3. 点击下载(约 18GB)
4. 下载完成后自动加载,即可在聊天界面使用。
—
常见问题
| 问题 | 解决方案 |
|——|———-|
| **下载模型慢/中断** | 重试 `ollama pull`(支持断点续传);或更换网络/代理 |
| **推理速度慢** | 换用更小的模型(如 `e4b` 取代 `31b`);检查是否启用 GPU |
| **显存不足** | 使用量化(Q3_K_M、Q4_K_M);减少 `-ngl` 层数;关闭其他占用显存的程序 |
| **Windows 下找不到命令** | 重启终端或电脑;确认安装目录已加入 PATH |
| **API 连接失败** | 确认 Ollama 服务已启动(`ollama ps`);检查防火墙是否放行 11434 端口 |
—
下一步提议
试用 Ollama:用 `ollama run gemma4:e4b` 快速启动



