🦞 普通人的本地 AI 折腾记录：从零到能跑起来

如果你也和我一样：有一台不算新的电脑、不想每个月花几十上百块买 AI 会员、想试试本地跑大模型但不知道从哪下手——这篇笔记就是写给你的。

写在前面 · 我的情况 → 你的参考

先说说我的配置，你可以对比一下：

我的配置	你的大致率也差不多
台式机，Ubuntu 25.10 系统	Windows 也行，后面会讲差别
NVIDIA RTX 2060 显卡，6GB 显存	有独显最好，没有也能玩（纯 CPU 慢一点而已）
1TB 硬盘	至少留 50GB 空闲，模型文件挺大的
需要代理上网	没有也不影响，下载可能慢点
预算 = 0	本文所有工具全部免费

一句话总结： 我踩过的坑，你不用再踩一遍。

一、先装系统 · Ubuntu 实则是更省心的选择

为什么选 Ubuntu 而不是 Windows？

说实话，我一开始也在 Windows 上折腾过。但本地 AI 工具对 Linux 的支持最好，许多坑在 Linux 上已经有人填平了，Windows 上反而要自己再踩一遍。

如果你不想重装系统，可以直接跳到第二节——Ollama 和 LM Studio 都有 Windows 版本。

安装过程（小白也能看懂）

# 1. 去
https://ubuntu.com/download 下载 Ubuntu
# 2. 用 Rufus（Windows）或 dd 命令（Linux）做成启动 U 盘
# 3. 插 U 盘重启，按 F2/F12 进 BIOS 选 U 盘启动
# 4. 跟着图形界面点”下一步”，选”清除整个磁盘并安装 Ubuntu”
# 如果你已经有 Windows，选”与 Windows 共存”（双系统）

装好之后打开终端（Ctrl+Alt+T），先更新一下：

sudo apt update && sudo apt upgrade -y

装好后的样子

$ lsb_release -a
Distributor ID: Ubuntu
Description: Ubuntu 25.10
Release: 25.10
Codename: questing
$ uname -a
Linux my-pc 6.17.0-22-generic #22-Ubuntu SMP x86_64 GNU/Linux

我的教训

不要装最新的 Ubuntu 版本！ 我装了 25.10（非 LTS 版），结果 CUDA 官方源还不支持它，后面装显卡驱动多费了好多功夫。提议装 Ubuntu 24.04 LTS，稳定且支持最好。
磁盘分区时留足空间：模型文件动辄 5-10GB，我前前后后下了 7 个模型，占了将近 50GB。

二、本地大模型引擎 · 真的比想象中简单

2.1 先装 Ollama （最推荐，一行命令搞定）

Ollama 是目前最简单好用的本地大模型运行工具，没有之一。

安装

curl -fsSL https://ollama.com/install.sh | sh

就这一行，等它跑完。

如果下载慢（国内常见问题）：

# 方法1：配置代理
export HTTP_PROXY=http://127.0.0.1:7897
export HTTPS_PROXY=http://127.0.0.1:7897
# 再执行上面的安装命令
# 方法2：手动下载安装包
# 去
https://ollama.com/download 下载 Linux 版
# 解压到 /usr 目录就行
curl -fsSL
https://ollama.com/download/ollama-linux-amd64.tar.zst | sudo tar x -C /usr

下载模型

安装完后就可以下载大模型了。我提议新手只下载这两个就够了：

# 必须下载：轻量通用模型（2GB，跑得最快）
ollama pull llama3.2
# 推荐下载：中文表现最好的开源模型（6.6GB）
ollama pull qwen3.5

其余的我试过但不推荐新手下载的：

模型	大小	为什么不太推荐
gemma4	9.6GB	比 Qwen 大但中文更差
deepseek-r1	5.2GB	推理很强但很慢，6GB 显存跑不动 GPU
qwen3.6	23.9GB	太大了，显存放不下，纯 CPU 慢到怀疑人生
glm-5.1	云端	本地版实则就是个空壳，最终还是走 API

启动服务

ollama serve

保持这个终端开着就行。后来每次需要用到本地模型时，都要先跑这一步。

测试能不能用

打开另一个终端窗口：

ollama run qwen3.5

输入”你好”，如果能回复就说明成功了。

安装效果

$ ollama –version
Ollama version 0.20.7
$ ollama list
NAME ID SIZE
llama3.2:latest 2.0GB
qwen3.5:latest 6.6GB

我的教训

关于选模型，我走了许多弯路：

一开始我什么模型都想试试，下载了 7 个模型占了 50GB。最后发现日常用得最多的就两个：Llama 3.2（轻量快速，问简单问题用）和 Qwen 3.5（中文好，稍微复杂的事情用）。其他的下载了基本没怎么打开过。

选模型的核心原则： 不是越大越好，你的显卡放得下、跑得动才是王道。6GB 显存能舒服跑的极限就是 7B-9B 参数的 Q4 量化版。

2.2 如果你喜爱图形界面 · LM Studio

Ollama 是命令行操作，如果你觉得打命令麻烦，可以用 LM Studio——它长这样：

[界面描述：左边是模型列表，中间是聊天窗口，下面是输入框]
跟 ChatGPT 的界面差不多，只不过模型跑在你自己的电脑上。

安装 LM Studio

# 1. 去 https://lmstudio.ai 下载 AppImage 文件
# 2. 安装依赖
sudo apt install libfuse2
# 3. 赋予执行权限
chmod +x
LM-Studio-0.4.12-1-x64.AppImage
# 4. 运行（双击或者在终端运行）

./LM-Studio-0.4.12-1-x64.AppImage

在 LM Studio 里下载模型

打开 LM Studio 后，界面上方有个搜索框，搜 qwen 3.5 或 llama 3.2，找到后点下载。它自动从 Hugging Face 拉取，进度条一目了然。

我下载的模型：

Qwen3.5-9B-Q4_K_M.gguf 5.3GB ← 主力模型

mmproj-Qwen3.5-9B-BF16.gguf 880MB ← 多模态（看图）需要的配套文件

开启 API 服务（重大）

在 LM Studio 左侧找到开发者模式（Developer）→ 启动 API 服务器。默认端口是 1234。这样其他软件（列如后面要说的 OpenClaw）就能调用这个模型了。

启动后验证：

curl
http://127.0.0.1:1234/v1/models
# 返回 {“data”: [{“id”: “qwen/qwen3.5-9b”}]} 就成功了

2.3 到底选 Ollama 还是 LM Studio？

你的情况	推荐
习惯命令行、想少装软件	✅ Ollama
想要图形界面、看得清楚	✅ LM Studio
两个都装上？	✅ 完全可以！我两个都装了，Ollama 跑轻量模型，LM Studio 跑主力模型

我自己的选择： 平时主要用 OpenClaw 调用 LM Studio 里的 Qwen3.5，偶尔命令行直接 ollama run llama3.2 问个快问题。

我的教训

两个引擎同时跑时要小心端口冲突： – Ollama 默认端口是 11434 – LM Studio 默认端口是 1234 它们不冲突，但如果你再装其他工具就要注意了。

三、让大模型用 GPU 跑 · 不然会慢到怀疑人生

为什么必须用 GPU？

大模型跑在 CPU 上什么感觉？我试过——Llama 3.2 在 CPU 上一个字要等 2-3 秒，问个简单问题能等半分钟。而用 GPU 几乎是秒回。

检查你有没有 NVIDIA 显卡：

nvidia-smi

如果提示”command not found”，说明你没装驱动或者没有 NVIDIA 显卡。

3.1 装 NVIDIA 驱动

# 查看推荐的驱动版本
ubuntu-drivers devices
# 安装（推荐选带 -server 或者数字最大的那个）
sudo apt install nvidia-driver-580
# 装完重启
sudo reboot

如果你是 Ubuntu 24.04 LTS（我提议你装的版本），这一步很顺利。但如果你像我一样装了 25.10，系统太新了，需要手动加源：

# 下载 Ubuntu 24.04 的 CUDA 源（向下兼容）
wget
https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i
cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit

3.2 验证 GPU 是否工作

# 重启后运行
$ nvidia-smi

GPU 正常工作时的样子

关键看这几项： – RTX 2060 → 你的显卡型号 – 6144MiB → 你的显存总量（6GB） – CUDA Version: 13.0 → CUDA 版本，有这一行就说明驱动装好了

3.3 让 Ollama 用 GPU

默认情况下 Ollama 可能用 CPU，手动指定 GPU：

# 先关掉 Ollama（如果有在运行的话）
pkill ollama
# 用 GPU 模式启动
CUDA_VISIBLE_DEVICES=0 ollama serve

验证是不是真的在用 GPU：

# 保持上面的终端开着，新开一个终端
ollama run qwen3.5
# 同时在另一个终端运行
nvidia-smi
# 如果看到 ollama 进程占用了显存，就说明成功了

GPU 加速验证

$ ollama ps
NAME ID SIZE PROCESSOR UNTIL
qwen3.5 xxxxx 5.3GB GPU forever
# 看到 PROCESSOR 列是 GPU 而不是 CPU 就对了

我的教训

最大的坑：驱动和 CUDA 版本不匹配。

我在这上面花了整整两天。一开始装了驱动后发现 GPU 用不了，报了”无法与 NVIDIA 驱动通信”的错误。试了各种方法，最后发现是：

先装驱动 → 重启 → 确认 nvidia-smi 能正常工作
再装 CUDA Toolkit → 不要用 sudo apt install cuda（这会连驱动一起装，可能覆盖你刚装好的版本），而是用 sudo apt install cuda-toolkit

如果 6GB 显存放不下大模型怎么办？ – Qwen3.5-9B 的 Q4 量化版刚好 5.3GB，勉勉强强能放下 – 再大的模型（列如 Gemma4 的 9.6GB）就只能用 CPU 慢慢跑了 – 想要更好的体验，要么换大显存显卡，要么用云端 API

四、OpenClaw · 让 AI 帮你干活

为什么需要 OpenClaw？

Ollama 和 LM Studio 只能在聊天窗口里一问一答。OpenClaw 能让 AI 真正”动手”——列如帮你看文件、写代码、操作你的电脑。

简单说：Ollama/LM Studio 是 AI 的”大脑”，OpenClaw 是 AI 的”身体”。

4.1 安装

# 先装 Node.js（OpenClaw 依赖这个）
curl -o-
https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.4/install.sh | bash
# 关掉终端重新打开，然后
nvm install 24
# 再装 OpenClaw
curl -fsSL
https://openclaw.ai/install.sh | bash

4.2 配置使用本地模型

装好后初始化：

openclaw onboard –mode local

这会引导你配置 API Key。如果你是纯本地使用（不调用云端 API），可以随意填一个占位。

核心配置就是把本地模型告知 OpenClaw：

# 如果你使用 Ollama
openclaw config set
models.providers.ollama.apiKey “ollama-local”
# 如果你使用 LM Studio（也可以两个都配）
openclaw config set
models.providers.lmstudio.baseUrl “http://127.0.0.1:1234/v1”
# 设置默认用本地模型，本地不行了自动切换到 DeepSeek API
openclaw models set qwen/qwen3.5-9b
openclaw models fallbacks add deepseek/deepseek-chat
# 重启生效
openclaw gateway restart

4.3 启动

openclaw gateway run

看到 Runtime: running 就说明成功了。然后浏览器打开 http://127.0.0.1:18789 就能看到 OpenClaw 的控制面板。

OpenClaw 运行效果

$ openclaw gateway status
Service: systemd (enabled)
Gateway: bind=loopback (127.0.0.1), port=18789
Dashboard: http://127.0.0.1:18789/
Runtime: running
RPC probe: ok
$ openclaw models list
Model Input Ctx Local Auth Tags
qwen/qwen3.5-9b – – – – default
deepseek/deepseek-chat text 128k no yes fallback#1

4.4 ⚠️ 必须做的一步：调大超时

这是最容易忽略的坑！本地模型第一次加载可能需要 2-3 分钟，但 OpenClaw 默认只等 300 秒（5 分钟），如果模型加载慢就会被认为”连接超时”。

# 把超时调到 10 分钟
openclaw config set
agents.defaults.llm.idleTimeoutSeconds 600
openclaw config set
agents.defaults.timeoutSeconds 600
openclaw gateway restart

我的教训

本地模型连接不上，90% 的缘由是超时。我第一次配置完 OpenClaw 后发消息完全没有回复，查日志发现是”timed out”。把超时从 300 秒调到 600 秒就好了。
OpenClaw 的自动发现功能不必定好使。 我删掉了 providers 配置指望它自动发现 Ollama 的模型，结果列表始终是空的。最后老老实实在配置文件里手动写死了模型列表才好。
OpenClaw 适合”派任务”，不适合聊天。 它本质是一个自动化工具，不是另一个 ChatGPT。如果你想聊天，直接在 Ollama 或 LM Studio 里聊更舒服。

五、其他 AI 工具 · 装了一堆最后常用的没几个

折腾了这么多 AI 工具，说实话大部分装完就吃灰了。把我觉得真正有用的列出来：

5.1 VS Code + GitHub Copilot（强烈推荐 ✅）

# 安装 VS Code（去官网下载 .deb 包或用 Snap）
sudo apt install ./code_1.117.0_amd64.deb
# 装好后打开，在扩展商店搜 “GitHub Copilot” 安装

如果你会写代码，Copilot 是 AI 工具里最实用的。 它不像大模型那样需要你手动复制粘贴代码，而是直接在编辑器里给你补全，用起来超级自然。

5.2 Trae（字节出品，尝个鲜）

Trae 是字节跳动做的 AI IDE，用自然语言就能生成代码。列如你说”帮我写个蜘蛛纸牌游戏”，它能直接生成完整的可运行代码。

安装： 直接下载 .deb 包安装即可。

值不值得用？ 如果你是纯新手想用 AI 做个小工具，Trae 比 VS Code + Copilot 更友善。但如果你已经会写代码，Copilot 的生产力更高。

5.3 Qoder（很有趣但不太成熟）

Qoder 是另一个 AI 编程工具，特点是能”看懂”你的整个项目。

sudo dpkg -i qoder_amd64.deb
qoder –help

实话实说： 我偶尔用一下，但还没形成习惯。同类工具太多了，Claude Code 也差不多，提议选一个用就行。

5.4 Claude Code（命令行的 AI 程序员）

sudo npm install -g @anthropic-ai/claude-code
claude –version # 2.1.118

Claude Code 直接在终端里和你对话，可以读写文件、执行命令。如果你习惯终端操作，很值得试试。但它需要 API Key，不走本地模型。

我的最终提议

装许多工具 ≠ 用许多工具
我装了的 AI 工具：
✅ Ollama → 每天用
✅ VS Code+Copilot → 每天用
✅ OpenClaw → 常常用
LM Studio → 偶尔用（图形界面查模型）
Trae → 尝鲜用
❌ Qoder → 装完基本没碰
❌ Claude Code → 装了没怎么用
❌ 剩下 5 个没提到的模型 → 下载完再也没打开过
推荐新手只装：
1️⃣ Ollama（运行本地模型）
2️⃣ VS Code + Copilot（写代码）
3️⃣ OpenClaw（让 AI 帮你干活）
这三个就能覆盖 90% 的需求了。

最后 · 我的真心话

一个半月折腾下来的感受

从 4 月初开始接触这些，到目前差不多一个半月。如果让我重新来一遍：

先想清楚你要用 AI 做什么。 我就是”先装了再说”，结果下载了 7 个模型、5 个工具，最后常用的只有 3 个。
不用什么都追求本地运行。 本地模型的优势是隐私和免费，但能力上限明显。复杂任务用 DeepSeek API（¥0.28/100 万 token，问几百个问题才几毛钱）体验好得多。
6GB 显存的确不够。 如果真心想玩本地大模型，RTX 3060 12GB 或 4060Ti 16GB 是更舒服的起步配置。但如果你有 6GB 卡又不想花钱升级，Qwen3.5-9B（Q4 量化）是效果和速度的最佳平衡点。