🦞 普通人的本地 AI 折腾记录:从零到能跑起来
如果你也和我一样:有一台不算新的电脑、不想每个月花几十上百块买 AI 会员、想试试本地跑大模型但不知道从哪下手——这篇笔记就是写给你的。
写在前面 · 我的情况 → 你的参考
先说说我的配置,你可以对比一下:
|
我的配置 |
你的大致率也差不多 |
|
台式机,Ubuntu 25.10 系统 |
Windows 也行,后面会讲差别 |
|
NVIDIA RTX 2060 显卡,6GB 显存 |
有独显最好,没有也能玩(纯 CPU 慢一点而已) |
|
1TB 硬盘 |
至少留 50GB 空闲,模型文件挺大的 |
|
需要代理上网 |
没有也不影响,下载可能慢点 |
|
预算 = 0 |
本文所有工具全部免费 |
一句话总结: 我踩过的坑,你不用再踩一遍。
一、先装系统 · Ubuntu 实则是更省心的选择
为什么选 Ubuntu 而不是 Windows?
说实话,我一开始也在 Windows 上折腾过。但本地 AI 工具对 Linux 的支持最好,许多坑在 Linux 上已经有人填平了,Windows 上反而要自己再踩一遍。
如果你不想重装系统,可以直接跳到第二节——Ollama 和 LM Studio 都有 Windows 版本。
安装过程(小白也能看懂)
# 1. 去
https://ubuntu.com/download 下载 Ubuntu
# 2. 用 Rufus(Windows)或 dd 命令(Linux)做成启动 U 盘
# 3. 插 U 盘重启,按 F2/F12 进 BIOS 选 U 盘启动
# 4. 跟着图形界面点”下一步”,选”清除整个磁盘并安装 Ubuntu”
# 如果你已经有 Windows,选”与 Windows 共存”(双系统)
装好之后打开终端(Ctrl+Alt+T),先更新一下:
sudo apt update && sudo apt upgrade -y
装好后的样子
$ lsb_release -a
Distributor ID: Ubuntu
Description: Ubuntu 25.10
Release: 25.10
Codename: questing
$ uname -a
Linux my-pc 6.17.0-22-generic #22-Ubuntu SMP x86_64 GNU/Linux
我的教训
- 不要装最新的 Ubuntu 版本! 我装了 25.10(非 LTS 版),结果 CUDA 官方源还不支持它,后面装显卡驱动多费了好多功夫。提议装 Ubuntu 24.04 LTS,稳定且支持最好。
- 磁盘分区时留足空间:模型文件动辄 5-10GB,我前前后后下了 7 个模型,占了将近 50GB。
二、本地大模型引擎 · 真的比想象中简单
2.1 先装 Ollama (最推荐,一行命令搞定)
Ollama 是目前最简单好用的本地大模型运行工具,没有之一。
安装
curl -fsSL https://ollama.com/install.sh | sh
就这一行,等它跑完。
如果下载慢(国内常见问题):
# 方法1:配置代理
export HTTP_PROXY=http://127.0.0.1:7897
export HTTPS_PROXY=http://127.0.0.1:7897
# 再执行上面的安装命令
# 方法2:手动下载安装包
# 去
https://ollama.com/download 下载 Linux 版
# 解压到 /usr 目录就行
curl -fsSL
https://ollama.com/download/ollama-linux-amd64.tar.zst | sudo tar x -C /usr
下载模型
安装完后就可以下载大模型了。我提议新手只下载这两个就够了:
# 必须下载:轻量通用模型(2GB,跑得最快)
ollama pull llama3.2
# 推荐下载:中文表现最好的开源模型(6.6GB)
ollama pull qwen3.5
其余的我试过但不推荐新手下载的:
|
模型 |
大小 |
为什么不太推荐 |
|
gemma4 |
9.6GB |
比 Qwen 大但中文更差 |
|
deepseek-r1 |
5.2GB |
推理很强但很慢,6GB 显存跑不动 GPU |
|
qwen3.6 |
23.9GB |
太大了,显存放不下,纯 CPU 慢到怀疑人生 |
|
glm-5.1 |
云端 |
本地版实则就是个空壳,最终还是走 API |
启动服务
ollama serve
保持这个终端开着就行。后来每次需要用到本地模型时,都要先跑这一步。
测试能不能用
打开另一个终端窗口:
ollama run qwen3.5
输入”你好”,如果能回复就说明成功了。
安装效果
$ ollama –version
Ollama version 0.20.7
$ ollama list
NAME ID SIZE
llama3.2:latest 2.0GB
qwen3.5:latest 6.6GB
我的教训
关于选模型,我走了许多弯路:
一开始我什么模型都想试试,下载了 7 个模型占了 50GB。最后发现日常用得最多的就两个:Llama 3.2(轻量快速,问简单问题用)和 Qwen 3.5(中文好,稍微复杂的事情用)。其他的下载了基本没怎么打开过。
选模型的核心原则: 不是越大越好,你的显卡放得下、跑得动才是王道。6GB 显存能舒服跑的极限就是 7B-9B 参数的 Q4 量化版。
2.2 如果你喜爱图形界面 · LM Studio
Ollama 是命令行操作,如果你觉得打命令麻烦,可以用 LM Studio——它长这样:
[界面描述:左边是模型列表,中间是聊天窗口,下面是输入框]
跟 ChatGPT 的界面差不多,只不过模型跑在你自己的电脑上。
安装 LM Studio
# 1. 去 https://lmstudio.ai 下载 AppImage 文件
# 2. 安装依赖
sudo apt install libfuse2
# 3. 赋予执行权限
chmod +x
LM-Studio-0.4.12-1-x64.AppImage
# 4. 运行(双击或者在终端运行)
./LM-Studio-0.4.12-1-x64.AppImage
在 LM Studio 里下载模型
打开 LM Studio 后,界面上方有个搜索框,搜 qwen 3.5 或 llama 3.2,找到后点下载。它自动从 Hugging Face 拉取,进度条一目了然。
我下载的模型:
Qwen3.5-9B-Q4_K_M.gguf 5.3GB ← 主力模型
mmproj-Qwen3.5-9B-BF16.gguf 880MB ← 多模态(看图)需要的配套文件
开启 API 服务(重大)
在 LM Studio 左侧找到开发者模式(Developer)→ 启动 API 服务器。默认端口是 1234。这样其他软件(列如后面要说的 OpenClaw)就能调用这个模型了。
启动后验证:
curl
http://127.0.0.1:1234/v1/models
# 返回 {“data”: [{“id”: “qwen/qwen3.5-9b”}]} 就成功了
2.3 到底选 Ollama 还是 LM Studio?
|
你的情况 |
推荐 |
|
习惯命令行、想少装软件 |
✅ Ollama |
|
想要图形界面、看得清楚 |
✅ LM Studio |
|
两个都装上? |
✅ 完全可以! 我两个都装了,Ollama 跑轻量模型,LM Studio 跑主力模型 |
我自己的选择: 平时主要用 OpenClaw 调用 LM Studio 里的 Qwen3.5,偶尔命令行直接 ollama run llama3.2 问个快问题。
我的教训
两个引擎同时跑时要小心端口冲突: – Ollama 默认端口是 11434 – LM Studio 默认端口是 1234 它们不冲突,但如果你再装其他工具就要注意了。
三、让大模型用 GPU 跑 · 不然会慢到怀疑人生
为什么必须用 GPU?
大模型跑在 CPU 上什么感觉?我试过——Llama 3.2 在 CPU 上一个字要等 2-3 秒,问个简单问题能等半分钟。而用 GPU 几乎是秒回。
检查你有没有 NVIDIA 显卡:
nvidia-smi
如果提示”command not found”,说明你没装驱动或者没有 NVIDIA 显卡。
3.1 装 NVIDIA 驱动
# 查看推荐的驱动版本
ubuntu-drivers devices
# 安装(推荐选带 -server 或者数字最大的那个)
sudo apt install nvidia-driver-580
# 装完重启
sudo reboot
如果你是 Ubuntu 24.04 LTS(我提议你装的版本),这一步很顺利。但如果你像我一样装了 25.10,系统太新了,需要手动加源:
# 下载 Ubuntu 24.04 的 CUDA 源(向下兼容)
wget
https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i
cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit
3.2 验证 GPU 是否工作
# 重启后运行
$ nvidia-smi
GPU 正常工作时的样子
Sun Apr 26 21:41:29 2026
+—————————————————————————–+
| NVIDIA-SMI 580.126.20 Driver Version: 580.126.20 CUDA Version: 13.0 |
+——————————-+———————-+———————-+
| GPU Name PX | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage | Memory-Usage | GPU-Util Compute M. |
|==============================+======================+======================|
| 0 RTX 2060 On | 00000000:01:00.0 On | N/A |
| N/A 57C P8 6W / 80W | 282MiB / 6144MiB | 34% Default |
+——————————-+———————-+———————-+
关键看这几项: – RTX 2060 → 你的显卡型号 – 6144MiB → 你的显存总量(6GB) – CUDA Version: 13.0 → CUDA 版本,有这一行就说明驱动装好了
3.3 让 Ollama 用 GPU
默认情况下 Ollama 可能用 CPU,手动指定 GPU:
# 先关掉 Ollama(如果有在运行的话)
pkill ollama
# 用 GPU 模式启动
CUDA_VISIBLE_DEVICES=0 ollama serve
验证是不是真的在用 GPU:
# 保持上面的终端开着,新开一个终端
ollama run qwen3.5
# 同时在另一个终端运行
nvidia-smi
# 如果看到 ollama 进程占用了显存,就说明成功了
GPU 加速验证
$ ollama ps
NAME ID SIZE PROCESSOR UNTIL
qwen3.5 xxxxx 5.3GB GPU forever
# 看到 PROCESSOR 列是 GPU 而不是 CPU 就对了
我的教训
最大的坑:驱动和 CUDA 版本不匹配。
我在这上面花了整整两天。一开始装了驱动后发现 GPU 用不了,报了”无法与 NVIDIA 驱动通信”的错误。试了各种方法,最后发现是:
- 先装驱动 → 重启 → 确认 nvidia-smi 能正常工作
- 再装 CUDA Toolkit → 不要用 sudo apt install cuda(这会连驱动一起装,可能覆盖你刚装好的版本),而是用 sudo apt install cuda-toolkit
如果 6GB 显存放不下大模型怎么办? – Qwen3.5-9B 的 Q4 量化版刚好 5.3GB,勉勉强强能放下 – 再大的模型(列如 Gemma4 的 9.6GB)就只能用 CPU 慢慢跑了 – 想要更好的体验,要么换大显存显卡,要么用云端 API
四、OpenClaw · 让 AI 帮你干活
为什么需要 OpenClaw?
Ollama 和 LM Studio 只能在聊天窗口里一问一答。OpenClaw 能让 AI 真正”动手”——列如帮你看文件、写代码、操作你的电脑。
简单说:Ollama/LM Studio 是 AI 的”大脑”,OpenClaw 是 AI 的”身体”。
4.1 安装
# 先装 Node.js(OpenClaw 依赖这个)
curl -o-
https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.4/install.sh | bash
# 关掉终端重新打开,然后
nvm install 24
# 再装 OpenClaw
curl -fsSL
https://openclaw.ai/install.sh | bash
4.2 配置使用本地模型
装好后初始化:
openclaw onboard –mode local
这会引导你配置 API Key。如果你是纯本地使用(不调用云端 API),可以随意填一个占位。
核心配置就是把本地模型告知 OpenClaw:
# 如果你使用 Ollama
openclaw config set
models.providers.ollama.apiKey “ollama-local”
# 如果你使用 LM Studio(也可以两个都配)
openclaw config set
models.providers.lmstudio.baseUrl “http://127.0.0.1:1234/v1”
# 设置默认用本地模型,本地不行了自动切换到 DeepSeek API
openclaw models set qwen/qwen3.5-9b
openclaw models fallbacks add deepseek/deepseek-chat
# 重启生效
openclaw gateway restart
4.3 启动
openclaw gateway run
看到 Runtime: running 就说明成功了。然后浏览器打开 http://127.0.0.1:18789 就能看到 OpenClaw 的控制面板。
OpenClaw 运行效果
$ openclaw gateway status
Service: systemd (enabled)
Gateway: bind=loopback (127.0.0.1), port=18789
Dashboard: http://127.0.0.1:18789/
Runtime: running
RPC probe: ok
$ openclaw models list
Model Input Ctx Local Auth Tags
qwen/qwen3.5-9b – – – – default
deepseek/deepseek-chat text 128k no yes fallback#1
4.4 ⚠️ 必须做的一步:调大超时
这是最容易忽略的坑!本地模型第一次加载可能需要 2-3 分钟,但 OpenClaw 默认只等 300 秒(5 分钟),如果模型加载慢就会被认为”连接超时”。
# 把超时调到 10 分钟
openclaw config set
agents.defaults.llm.idleTimeoutSeconds 600
openclaw config set
agents.defaults.timeoutSeconds 600
openclaw gateway restart
我的教训
- 本地模型连接不上,90% 的缘由是超时。我第一次配置完 OpenClaw 后发消息完全没有回复,查日志发现是”timed out”。把超时从 300 秒调到 600 秒就好了。
- OpenClaw 的自动发现功能不必定好使。 我删掉了 providers 配置指望它自动发现 Ollama 的模型,结果列表始终是空的。最后老老实实在配置文件里手动写死了模型列表才好。
- OpenClaw 适合”派任务”,不适合聊天。 它本质是一个自动化工具,不是另一个 ChatGPT。如果你想聊天,直接在 Ollama 或 LM Studio 里聊更舒服。
五、其他 AI 工具 · 装了一堆最后常用的没几个
折腾了这么多 AI 工具,说实话大部分装完就吃灰了。把我觉得真正有用的列出来:
5.1 VS Code + GitHub Copilot(强烈推荐 ✅)
# 安装 VS Code(去官网下载 .deb 包或用 Snap)
sudo apt install ./code_1.117.0_amd64.deb
# 装好后打开,在扩展商店搜 “GitHub Copilot” 安装
如果你会写代码,Copilot 是 AI 工具里最实用的。 它不像大模型那样需要你手动复制粘贴代码,而是直接在编辑器里给你补全,用起来超级自然。
5.2 Trae(字节出品,尝个鲜 )
Trae 是字节跳动做的 AI IDE,用自然语言就能生成代码。列如你说”帮我写个蜘蛛纸牌游戏”,它能直接生成完整的可运行代码。
安装: 直接下载 .deb 包安装即可。
值不值得用? 如果你是纯新手想用 AI 做个小工具,Trae 比 VS Code + Copilot 更友善。但如果你已经会写代码,Copilot 的生产力更高。
5.3 Qoder(很有趣但不太成熟 )
Qoder 是另一个 AI 编程工具,特点是能”看懂”你的整个项目。
sudo dpkg -i qoder_amd64.deb
qoder –help
实话实说: 我偶尔用一下,但还没形成习惯。同类工具太多了,Claude Code 也差不多,提议选一个用就行。
5.4 Claude Code(命令行的 AI 程序员)
sudo npm install -g @anthropic-ai/claude-code
claude –version # 2.1.118
Claude Code 直接在终端里和你对话,可以读写文件、执行命令。如果你习惯终端操作,很值得试试。但它需要 API Key,不走本地模型。
我的最终提议
装许多工具 ≠ 用许多工具
我装了的 AI 工具:
✅ Ollama → 每天用
✅ VS Code+Copilot → 每天用
✅ OpenClaw → 常常用
LM Studio → 偶尔用(图形界面查模型)
Trae → 尝鲜用
❌ Qoder → 装完基本没碰
❌ Claude Code → 装了没怎么用
❌ 剩下 5 个没提到的模型 → 下载完再也没打开过
推荐新手只装:
1️⃣ Ollama(运行本地模型)
2️⃣ VS Code + Copilot(写代码)
3️⃣ OpenClaw(让 AI 帮你干活)
这三个就能覆盖 90% 的需求了。
最后 · 我的真心话
一个半月折腾下来的感受
从 4 月初开始接触这些,到目前差不多一个半月。如果让我重新来一遍:
- 先想清楚你要用 AI 做什么。 我就是”先装了再说”,结果下载了 7 个模型、5 个工具,最后常用的只有 3 个。
- 不用什么都追求本地运行。 本地模型的优势是隐私和免费,但能力上限明显。复杂任务用 DeepSeek API(¥0.28/100 万 token,问几百个问题才几毛钱)体验好得多。
- 6GB 显存的确 不够。 如果真心想玩本地大模型,RTX 3060 12GB 或 4060Ti 16GB 是更舒服的起步配置。但如果你有 6GB 卡又不想花钱升级,Qwen3.5-9B(Q4 量化)是效果和速度的最佳平衡点。
我的模型调用策略(最终方案)
日常简单问题 → Ollama → llama3.2(本地,免费,秒回)
正经干活 → OpenClaw → LM Studio → Qwen3.5(本地,免费,能力强一点)
复杂任务 → OpenClaw → DeepSeek API(云端,花几分钱,能力强许多)
一个月要花多少钱?
|
场景 |
费用 |
|
只用本地模型 |
¥0 / 月 |
|
偶尔用 DeepSeek API |
¥1-3 / 月 |
|
重度使用所有 API |
¥10-20 / 月 |
|
ChatGPT Plus / Claude Pro |
¥140-200 / 月 |
对于日常使用,本地模型 + 偶尔 DeepSeek API 的组合,花费几乎可以忽略不计,这是最推荐的方式。
如果遇到问题
本文所有命令和配置都是我实际跑通过的。如果遇到报错,先检查: 1. Ollama / LM Studio 有没有启动(许多人忘了这一步) 2. nvidia-smi 能不能正常输出(驱动问题是一切问题的根源) 3. OpenClaw 超时有没有调大(默认 300 秒可能不够)
如果还是搞不定,欢迎留言交流。这些坑我都踩过了,希望能帮你绕过去
本文基于个人实际搭建经历整理,硬件:Ubuntu 25.10 / RTX 2060 6GB
2026-04-26
全部命令和配置均经过实际验证

