成功启用 Gemma 4

内容分享2小时前发布
0 1 0
全能 AI 聚合平台 免费

一站式接入主流 AI 大模型,支持对话 · 生图 · 生视频,即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama
AI对话 AI生图 AI视频
免费使用 →

安装 Gemma 4主要有四种主流方式,每种适用于不同场景。Ollama 是最简单快速的入门选择,而 **Hugging Face Transformers** 和 **llama.cpp** 则适合开发者进行更精细的控制。

快速选择(根据您的场景)

| 场景 | 推荐方法 | 说明 |

|——|———-|——|

| **只想快速体验,避免复杂配置** | **Ollama** | 一键安装、自动下载模型、命令行交互,适合新手 |

| **需要图形界面,不愿碰终端** | **Unsloth Studio** | 提供 Web 界面,点选下载、聊天,支持图片理解 |

| **开发者,需要集成到 Python 项目** | **Hugging Face Transformers** | 通过 `pip` 安装,支持全精度/量化加载,适合微调、开发 |

| **追求极致性能与控制,或资源有限** | **llama.cpp** | 编译后运行 GGUF 量化模型,CPU/GPU 混合推理,节省显存 |

| **显存有限(8‑16GB)** | Ollama(选 `gemma4:e4b`)或 Unsloth(Q3/Q4 量化) | 使用小参数模型或低比特量化 |

| **有 24GB+ VRAM,追求高质量** | 任何方法 + Q4_K_M / Q5_K_M 量化 | 可运行 31B 模型,保持较好生成质量 |

方法一:Ollama(推荐初学者)

1. 安装 Ollama

根据系统选择:

– **Linux/macOS**(终端执行):

“`bash

curl -fsSL https://ollama.com/install.sh | sh

“`

– **macOS**(也可用 Homebrew):

“`bash

brew install –cask ollama

“`

– **Windows**:访问 [ollama.com/download](
https://ollama.com/download) 下载安装程序。

安装后验证:

“`bash

ollama –version

“`

2. 拉取 Gemma 4 模型

Ollama 提供了多个版本的 Gemma 4,根据硬件选择:

| 模型版本 | 参数量 | 适用场景 |

|———-|——–|———-|

| `gemma4:e2b` | 2.3B | CPU 或低显存(≤6GB) |

| `gemma4:e4b` | 4B | 平衡选择,显存 8‑12GB |

| `gemma4:26b` | 26B | 显存 ≥12GB,质量更高 |

| `gemma4:31b` | 31B | 显存 ≥16GB,最高质量 |

拉取命令(提议先试用 `e4b`):

“`bash

ollama pull gemma4:e4b

“`

3. 运行模型

– **交互式聊天**:

“`bash

ollama run gemma4:e4b

“`

– **单次提问**:

“`bash

ollama run gemma4:e4b “roses are red”

“`

4. 使用 API

Ollama 在本地启动 API 服务(端口 11434),可用 `curl` 或 Python 调用:

“`python

import requests

response = requests.post('http://localhost:11434/api/generate', json={

“model”: “gemma4:e4b”,

“prompt”: “为什么本地 AI 很重大?”,

“stream”: False

})

print(response.json()['response'])

“`

方法二:Hugging Face Transformers(适合开发者)

1. 安装依赖

“`bash

pip install -U transformers torch accelerate

# 如需多模态(图片)支持

pip install -U torchvision

“`

2. 加载并运行模型(4‑bit 量化,约需 18GB VRAM)

“`python

from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig

import torch

MODEL_ID = “google/gemma-4-31B-it”

# 4-bit 量化配置(节省显存)

quantization_config = BitsAndBytesConfig(

load_in_4bit=True,

bnb_4bit_compute_dtype=torch.float16

)

processor = AutoProcessor.from_pretrained(MODEL_ID)

model = AutoModelForCausalLM.from_pretrained(

MODEL_ID,

quantization_config=quantization_config,

device_map=”auto”

)

# 构建对话

messages = [

{“role”: “system”, “content”: “你是一个有用的助手。”},

{“role”: “user”, “content”: “用简单的话解释量子计算。”},

]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = processor(text=text, return_tensors=”pt”).to(model.device)

# 生成回复

outputs = model.generate(**inputs, max_new_tokens=512)

response = processor.decode(outputs[0][inputs[“input_ids”].shape[-1]:], skip_special_tokens=True)

print(response)

“`

3. 全精度运行(需 62GB+ VRAM)

若显存充足,可去掉 `quantization_config`,使用 `dtype=”auto”`。

方法三:llama.cpp(高性能、跨平台)

1. 编译 llama.cpp

“`bash

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

# 根据硬件选择编译选项

# NVIDIA GPU(CUDA)

cmake -B build -DGGML_CUDA=ON

# Apple Silicon(Metal)

cmake -B build -DGGML_METAL=ON

# 纯 CPU

cmake -B build

cmake –build build –config Release -j$(nproc)

“`

2. 下载 GGUF 量化模型

“`bash

pip install huggingface-hub

# 下载 Q4_K_M 量化(推荐 24GB 显卡)

huggingface-cli download unsloth/gemma-4-31B-it-GGUF

gemma-4-31B-it-Q4_K_M.gguf

–local-dir ./models

“`

3. 运行模型

“`bash

./build/bin/llama-cli

-m ./models/gemma-4-31B-it-Q4_K_M.gguf

-ngl 99 # 将所有层加载到 GPU(显存不足时可减小,如 -ngl 40)

-c 8192 # 上下文长度

–temp 1.0

–top-p 0.95

–top-k 64

-p “You are a helpful assistant.
User: Explain quantum computing in simple terms.
Assistant:”

“`

4. 启动 OpenAI 兼容的 API 服务器

“`bash

./build/bin/llama-server

-m ./models/gemma-4-31B-it-Q4_K_M.gguf

-ngl 99

-c 8192

–host 0.0.0.0

–port 8080

“`

随后可用 `openai` 库调用(API Key 可任意填写):

“`python

from openai import OpenAI

client = OpenAI(base_url=”http://localhost:8080/v1″, api_key=”unused”)

response = client.chat.completions.create(

model=”gemma-4-31b”,

messages=[{“role”: “user”, “content”: “Hello!”}]

)

“`

方法四:Unsloth Studio(图形界面)

1. 安装

– **macOS/Linux/WSL**:

“`bash

curl -fsSL https://unsloth.ai/install.sh | sh

“`

– **Windows(PowerShell)**:

“`powershell

irm https://unsloth.ai/install.ps1 | iex

“`

2. 启动

“`bash

unsloth studio -H 0.0.0.0 -p 8888

“`

浏览器打开 `http://localhost:8888`。

3. 下载并运行 Gemma 4

1. 在搜索栏输入 `gemma-4-31B`

2. 选择量化级别(如 Q4_K_M)

3. 点击下载(约 18GB)

4. 下载完成后自动加载,即可在聊天界面使用。

常见问题

| 问题 | 解决方案 |

|——|———-|

| **下载模型慢/中断** | 重试 `ollama pull`(支持断点续传);或更换网络/代理 |

| **推理速度慢** | 换用更小的模型(如 `e4b` 取代 `31b`);检查是否启用 GPU |

| **显存不足** | 使用量化(Q3_K_M、Q4_K_M);减少 `-ngl` 层数;关闭其他占用显存的程序 |

| **Windows 下找不到命令** | 重启终端或电脑;确认安装目录已加入 PATH |

| **API 连接失败** | 确认 Ollama 服务已启动(`ollama ps`);检查防火墙是否放行 11434 端口 |

下一步提议

试用 Ollama:用 `ollama run gemma4:e4b` 快速启动

© 版权声明

相关文章

1 条评论

none
暂无评论...