最近本地大模型圈子里,Ollama成了小白首选,一键安装的确 方便。但如果你用的是NVIDIA显卡(列如我这张4060 8G),又想把硬件性能彻底榨干,那llama.cpp才是真正的性能怪兽!
今天我就手把手教你,如何在Win11上用llama.cpp部署阿里最新Qwen3.5-9B模型,再接入OpenClaw网关,实现网页端流畅对话。上下文拉到32K,8G显存也能跑,速度还快得飞起!

一、为什么要抛弃Ollama,选择llama.cpp?
Ollama虽然简单,但封装了一层,对于特定硬件优化不够极致。而llama.cpp是底层推理引擎,直接调用CUDA,能精细控制显存占用、批处理大小,甚至支持IQ4_NL这种超强量化格式——模型缩小到5-6GB,几乎不损失智商!
我实测Qwen3.5-9B(IQ4_NL量化),在4060 8G+16G内存的机器上,全卸载到GPU(-ngl 99),生成速度能达到40-50 token/s,而且32K上下文毫无压力。Ollama跑同样模型,显存管理就没这么灵活。
二、准备工作:模型和工具下载
- 下载llama.cpp Windows版
去GitHub Releases下载最新llama-bXXXX-bin-win-cuda-xx.x-x64.zip,解压到D:llama-b8234-bin-win-cuda-12.4-x64(路径自定)。 - 下载Qwen3.5-9B IQ4_NL模型
去Hugging Face或ModelScope搜索“Qwen3.5-9B IQ4_NL”,下载GGUF格式文件(列如Qwen3.5-9B-IQ4_NL.gguf),放到D:llama_models。 - 安装OpenClaw网关
如果你还没装,去OpenClaw官方仓库下载,安装后确保openclaw命令可用。
三、启动llama.cpp推理服务器
打开PowerShell,进入llama.cpp目录,运行:
powershell
.llama-server.exe -m D:llama_modelsQwen3.5-9B-IQ4_NL.gguf -ngl 99 -c 32768
参数解释:
- -m 模型路径(我的模型路径为D:llama_models,需要修改为实际路径)
- -ngl 99 将99层卸载到GPU(即几乎所有层都用显卡跑,前提是显存够)
- -c 32768 上下文长度设为32K(满足OpenClaw要求)
注意:如果你的4060 8G显存不够全卸载,可以适当降低-ngl值(列如-ngl 40),剩余层用CPU跑,速度会慢一些,但稳定不爆显存。
看到Listening on http://127.0.0.1:8080就成功了!这个地址就是OpenClaw要对接的API。
四、配置OpenClaw接入本地模型
OpenClaw的配置文件一般是~/.openclaw/config.yaml(或项目目录下的gateway.yaml)。我们需要修改以下几个关键部分:
1. 修改gateway token(可选)
yaml
gateway:
token: sk_4dxxxx6-2d58-4xx9-87d1-d19xxxxx61d5 # 可随机生成或保持默认
2. 添加provider(指向llama.cpp)
yaml
providers:
- id: llama-cpp-local
type: openai
baseURL: http://127.0.0.1:8080/v1 # 确保和llama-server地址一致
apiKey: sk-local # 必须与llama-server --api-key参数一致(这里没设,随意填)
models:
- id: Qwen3.5-9B-IQ4_NL # 模型ID,不要带.gguf
contextWindow: 32768 # 必须大于16k,这里32k
maxTokens: 8192 # 最大输出token,可按需调整
3. 添加agent(定义对话助手)
yaml
agents:
- id: main
name: My Local Qwen
model: llama-cpp-local/Qwen3.5-9B-IQ4_NL # 格式:providerID/模型ID
systemPrompt: 你是一个乐于助人的助手。
temperature: 0.7
4. 其他配置(插件路径、Python路径等)
yaml
pluginsDir: "C:\Users\你的用户名\openclaw\plugins"
pythonPath: "C:\Users\你的用户名\AppData\Local\Programs\Python\Python312\python.exe"
注意:所有路径要用双反斜杠或正斜杠。
五、重启网关并验证
- 停止当前运行的gateway(如果有):
- powershell
- openclaw gateway stop
- 如果停止失败,手动杀掉占用18789端口的进程:
- powershell
- netstat -ano | findstr :18789 taskkill /PID <PID> /F
- 确认端口18789空闲(没有输出即空闲)。
- 重新启动gateway:
- powershell
- openclaw gateway start
- 打开TUI界面:
- powershell
- openclaw tui
- 在TUI里按/model切换模型,选择llama-cpp-local/Qwen3.5-9B-IQ4_NL,然后开始对话吧!
六、注意事项(必看!)
⚠️ 显存与性能平衡
- 我的环境是16G内存 + 4060 8G,运行Qwen3.5-9B IQ4_NL,显存占用约7.2G(-ngl 99时)。如果你的显存只有8G,提议关闭其他占用显存的程序(浏览器、游戏等),否则可能OOM。
- 若显存不够,将-ngl降到30-40,让CPU分担一些层,速度依然可观。
⚠️ 上下文长度必须大于16k
OpenClaw要求上下文至少16k,我们设了32k,完美满足。但注意,上下文越长,显存占用越高,如果出现显存溢出,可以适当降低-c值(列如16384)。
⚠️ 模型ID不要带.gguf
OpenClaw配置里的models.id必须是纯名称,不能有.gguf后缀,否则会报错。
⚠️ apiKey一致性
如果你在启动llama-server时加了–api-key sk-local,那么yaml里的apiKey必须一致;如果没加,可以随意填(OpenClaw不会验证)。
⚠️ 路径中的反斜杠
Windows路径在YAML里要转义,用双反斜杠\或正斜杠/,否则解析会出错。
七、效果实测
我在TUI里连续对话了几轮,32k上下文下,模型能记住前面所有内容,回答质量极高,速度稳定在45 token/s左右,完全感觉不到是在本地跑。配合OpenClaw的插件系统,还可以实现联网搜索、画图等功能,可玩性爆表!
八、总结
Ollama适合快速上手,但如果你追求极致性能和灵活控制,llama.cpp + OpenClaw才是王道。特别是你手里有NVIDIA显卡,想跑超大上下文模型,这一套组合拳绝对让你爽到!
赶紧动手试试吧! 遇到问题欢迎在评论区留言,我会尽力解答。如果你有更好的量化模型或优化技巧,也欢迎分享!
#本地部署 #AI #Qwen #llamacpp #OpenClaw #干货分享
#人工智能将如何影响人类的未来?#