成功启用 Gemma 4

内容分享2小时前发布

0 1 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

安装 Gemma 4主要有四种主流方式，每种适用于不同场景。Ollama 是最简单快速的入门选择，而 **Hugging Face Transformers** 和 **llama.cpp** 则适合开发者进行更精细的控制。

快速选择（根据您的场景）

| 场景 | 推荐方法 | 说明 |

|——|———-|——|

| **只想快速体验，避免复杂配置** | **Ollama** | 一键安装、自动下载模型、命令行交互，适合新手 |

| **需要图形界面，不愿碰终端** | **Unsloth Studio** | 提供 Web 界面，点选下载、聊天，支持图片理解 |

| **开发者，需要集成到 Python 项目** | **Hugging Face Transformers** | 通过 `pip` 安装，支持全精度/量化加载，适合微调、开发 |

| **追求极致性能与控制，或资源有限** | **llama.cpp** | 编译后运行 GGUF 量化模型，CPU/GPU 混合推理，节省显存 |

| **显存有限（8‑16GB）** | Ollama（选 `gemma4:e4b`）或 Unsloth（Q3/Q4 量化） | 使用小参数模型或低比特量化 |

| **有 24GB+ VRAM，追求高质量** | 任何方法 + Q4_K_M / Q5_K_M 量化 | 可运行 31B 模型，保持较好生成质量 |

方法一：Ollama（推荐初学者）

1. 安装 Ollama

根据系统选择：

– **Linux/macOS**（终端执行）：

“`bash

curl -fsSL https://ollama.com/install.sh | sh

“`

– **macOS**（也可用 Homebrew）：

“`bash

brew install –cask ollama

“`

– **Windows**：访问 [ollama.com/download](
https://ollama.com/download) 下载安装程序。

安装后验证：

“`bash

ollama –version

“`

2. 拉取 Gemma 4 模型

Ollama 提供了多个版本的 Gemma 4，根据硬件选择：

| 模型版本 | 参数量 | 适用场景 |

|———-|——–|———-|

| `gemma4:e2b` | 2.3B | CPU 或低显存（≤6GB） |

| `gemma4:e4b` | 4B | 平衡选择，显存 8‑12GB |

| `gemma4:26b` | 26B | 显存 ≥12GB，质量更高 |

| `gemma4:31b` | 31B | 显存 ≥16GB，最高质量 |

拉取命令（提议先试用 `e4b`）：

“`bash

ollama pull gemma4:e4b

“`

3. 运行模型

– **交互式聊天**：

“`bash

ollama run gemma4:e4b

“`

– **单次提问**：

“`bash

ollama run gemma4:e4b “roses are red”

“`

4. 使用 API

Ollama 在本地启动 API 服务（端口 11434），可用 `curl` 或 Python 调用：

“`python

import requests

response = requests.post('http://localhost:11434/api/generate', json={

“model”: “gemma4:e4b”,

“prompt”: “为什么本地 AI 很重大？”,

“stream”: False

})

print(response.json()['response'])

“`

—

方法二：Hugging Face Transformers（适合开发者）

1. 安装依赖

“`bash

pip install -U transformers torch accelerate

# 如需多模态（图片）支持

pip install -U torchvision

“`

2. 加载并运行模型（4‑bit 量化，约需 18GB VRAM）

“`python

from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig

import torch

MODEL_ID = “google/gemma-4-31B-it”

# 4-bit 量化配置（节省显存）

quantization_config = BitsAndBytesConfig(

load_in_4bit=True,

bnb_4bit_compute_dtype=torch.float16

)

processor = AutoProcessor.from_pretrained(MODEL_ID)

model = AutoModelForCausalLM.from_pretrained(

MODEL_ID,

quantization_config=quantization_config,

device_map=”auto”

)

# 构建对话

messages = [

{“role”: “system”, “content”: “你是一个有用的助手。”},

{“role”: “user”, “content”: “用简单的话解释量子计算。”},

]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = processor(text=text, return_tensors=”pt”).to(model.device)

# 生成回复

outputs = model.generate(**inputs, max_new_tokens=512)

response = processor.decode(outputs[0][inputs[“input_ids”].shape[-1]:], skip_special_tokens=True)

print(response)

“`

3. 全精度运行（需 62GB+ VRAM）

若显存充足，可去掉 `quantization_config`，使用 `dtype=”auto”`。

—

方法三：llama.cpp（高性能、跨平台）

1. 编译 llama.cpp

“`bash

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

# 根据硬件选择编译选项

# NVIDIA GPU（CUDA）

cmake -B build -DGGML_CUDA=ON

# Apple Silicon（Metal）

cmake -B build -DGGML_METAL=ON

# 纯 CPU

cmake -B build

cmake –build build –config Release -j$(nproc)

“`

2. 下载 GGUF 量化模型

“`bash

pip install huggingface-hub

# 下载 Q4_K_M 量化（推荐 24GB 显卡）

huggingface-cli download unsloth/gemma-4-31B-it-GGUF

gemma-4-31B-it-Q4_K_M.gguf

–local-dir ./models

“`

3. 运行模型

“`bash

./build/bin/llama-cli

-m ./models/gemma-4-31B-it-Q4_K_M.gguf

-ngl 99 # 将所有层加载到 GPU（显存不足时可减小，如 -ngl 40）

-c 8192 # 上下文长度

–temp 1.0

–top-p 0.95

–top-k 64

-p “You are a helpful assistant.
User: Explain quantum computing in simple terms.
Assistant:”

“`

4. 启动 OpenAI 兼容的 API 服务器

“`bash

./build/bin/llama-server

-m ./models/gemma-4-31B-it-Q4_K_M.gguf

-ngl 99

-c 8192

–host 0.0.0.0

–port 8080

“`

随后可用 `openai` 库调用（API Key 可任意填写）：

“`python

from openai import OpenAI

client = OpenAI(base_url=”http://localhost:8080/v1″, api_key=”unused”)

response = client.chat.completions.create(

model=”gemma-4-31b”,

messages=[{“role”: “user”, “content”: “Hello!”}]

)

“`

—

方法四：Unsloth Studio（图形界面）

1. 安装

– **macOS/Linux/WSL**：

“`bash

curl -fsSL https://unsloth.ai/install.sh | sh

“`

– **Windows（PowerShell）**：

“`powershell

irm https://unsloth.ai/install.ps1 | iex

“`

2. 启动

“`bash

unsloth studio -H 0.0.0.0 -p 8888

“`

浏览器打开 `http://localhost:8888`。

3. 下载并运行 Gemma 4

1. 在搜索栏输入 `gemma-4-31B`

2. 选择量化级别（如 Q4_K_M）

3. 点击下载（约 18GB）

4. 下载完成后自动加载，即可在聊天界面使用。

—

常见问题

| 问题 | 解决方案 |

|——|———-|

| **下载模型慢/中断** | 重试 `ollama pull`（支持断点续传）；或更换网络/代理 |

| **推理速度慢** | 换用更小的模型（如 `e4b` 取代 `31b`）；检查是否启用 GPU |

| **显存不足** | 使用量化（Q3_K_M、Q4_K_M）；减少 `-ngl` 层数；关闭其他占用显存的程序 |

| **Windows 下找不到命令** | 重启终端或电脑；确认安装目录已加入 PATH |

| **API 连接失败** | 确认 Ollama 服务已启动（`ollama ps`）；检查防火墙是否放行 11434 端口 |

—

下一步提议

试用 Ollama：用 `ollama run gemma4:e4b` 快速启动

内容分享

文章版权归作者所有，未经允许请勿转载。

公理训练让LLM学会因果推理：6700万参数模型比肩万亿参数级GPT-4

内容分享

8个月前

120

用了十年 Redis，我第一次认真思考“16 个库”这件事

内容分享

3个月前

020

Authentication 和 Authorization 傻傻区分不开，让deepseek教会

内容分享

6个月前

020

输入法编程开发笔记

内容分享

8个月前

020

1 条评论

暂无评论...

成功启用 Gemma 4

Gemma4下载破6000万、推理提速3倍：谷歌端侧AI开源布局得与失

显存只用20GB！谷歌Gemma 4搭配AMD锐龙AI Max：本地智能体的天花板来了？

相关文章

公理训练让LLM学会因果推理：6700万参数模型比肩万亿参数级GPT-4

用了十年 Redis，我第一次认真思考“16 个库”这件事

Authentication 和 Authorization 傻傻区分不开，让deepseek教会

输入法编程开发笔记

1 条评论

热门网站

小苹果网页助手

通义

Shopee

腾讯元宝

ChatGPT

Gemini

热门文章

ESP32-S3-WROOM-1-N16R8 对接 PS2 游戏手柄：从硬件到软件的全流程技术指南

超强GPU加速终端Kitty：性能与功能全解析

2025了，别再做1000元的全屋智能了

华为军团就是中国科技产业的诺亚方舟

用Python打造的8个自动化工作流

单片机最好用的程序框架，莫过于状态机了

成功启用 Gemma 4

Gemma4下载破6000万、推理提速3倍：谷歌端侧AI开源布局得与失

显存只用20GB！谷歌Gemma 4搭配AMD锐龙AI Max：本地智能体的天花板来了？

相关文章

热门网站

小苹果网页助手

通义

Shopee

腾讯元宝

ChatGPT

Gemini

热门文章

标签云