用llama.cpp+OpenClaw本地部署Qwen3.5,实现token自由!

全能 AI 聚合平台 免费

一站式接入主流 AI 大模型,支持对话 · 生图 · 生视频,即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama
AI对话 AI生图 AI视频
免费使用 →

最近本地大模型圈子里,Ollama成了小白首选,一键安装的确 方便。但如果你用的是NVIDIA显卡(列如我这张4060 8G),又想把硬件性能彻底榨干,那llama.cpp才是真正的性能怪兽!

今天我就手把手教你,如何在Win11上用llama.cpp部署阿里最新Qwen3.5-9B模型,再接入OpenClaw网关,实现网页端流畅对话。上下文拉到32K,8G显存也能跑,速度还快得飞起!

用llama.cpp+OpenClaw本地部署Qwen3.5,实现token自由!


一、为什么要抛弃Ollama,选择llama.cpp?

Ollama虽然简单,但封装了一层,对于特定硬件优化不够极致。而llama.cpp是底层推理引擎,直接调用CUDA,能精细控制显存占用、批处理大小,甚至支持IQ4_NL这种超强量化格式——模型缩小到5-6GB,几乎不损失智商!

我实测Qwen3.5-9B(IQ4_NL量化),在4060 8G+16G内存的机器上,全卸载到GPU(-ngl 99),生成速度能达到40-50 token/s,而且32K上下文毫无压力。Ollama跑同样模型,显存管理就没这么灵活。


二、准备工作:模型和工具下载

  1. 下载llama.cpp Windows版
    去GitHub Releases下载最新llama-bXXXX-bin-win-cuda-xx.x-x64.zip,解压到D:llama-b8234-bin-win-cuda-12.4-x64(路径自定)。
  2. 下载Qwen3.5-9B IQ4_NL模型
    去Hugging Face或ModelScope搜索“Qwen3.5-9B IQ4_NL”,下载GGUF格式文件(列如Qwen3.5-9B-IQ4_NL.gguf),放到D:llama_models。
  3. 安装OpenClaw网关
    如果你还没装,去OpenClaw官方仓库下载,安装后确保openclaw命令可用。

三、启动llama.cpp推理服务器

打开PowerShell,进入llama.cpp目录,运行:

powershell

.llama-server.exe -m D:llama_modelsQwen3.5-9B-IQ4_NL.gguf -ngl 99 -c 32768

参数解释:

  • -m 模型路径(我的模型路径为D:llama_models,需要修改为实际路径)
  • -ngl 99 将99层卸载到GPU(即几乎所有层都用显卡跑,前提是显存够)
  • -c 32768 上下文长度设为32K(满足OpenClaw要求)

注意:如果你的4060 8G显存不够全卸载,可以适当降低-ngl值(列如-ngl 40),剩余层用CPU跑,速度会慢一些,但稳定不爆显存。

看到Listening on http://127.0.0.1:8080就成功了!这个地址就是OpenClaw要对接的API。


四、配置OpenClaw接入本地模型

OpenClaw的配置文件一般是~/.openclaw/config.yaml(或项目目录下的gateway.yaml)。我们需要修改以下几个关键部分:

1. 修改gateway token(可选)

yaml

gateway:
  token: sk_4dxxxx6-2d58-4xx9-87d1-d19xxxxx61d5   # 可随机生成或保持默认

2. 添加provider(指向llama.cpp)

yaml

providers:
  - id: llama-cpp-local
    type: openai
    baseURL: http://127.0.0.1:8080/v1   # 确保和llama-server地址一致
    apiKey: sk-local                     # 必须与llama-server --api-key参数一致(这里没设,随意填)
    models:
      - id: Qwen3.5-9B-IQ4_NL             # 模型ID,不要带.gguf
        contextWindow: 32768              # 必须大于16k,这里32k
        maxTokens: 8192                    # 最大输出token,可按需调整

3. 添加agent(定义对话助手)

yaml

agents:
  - id: main
    name: My Local Qwen
    model: llama-cpp-local/Qwen3.5-9B-IQ4_NL   # 格式:providerID/模型ID
    systemPrompt: 你是一个乐于助人的助手。
    temperature: 0.7

4. 其他配置(插件路径、Python路径等)

yaml

pluginsDir: "C:\Users\你的用户名\openclaw\plugins"
pythonPath: "C:\Users\你的用户名\AppData\Local\Programs\Python\Python312\python.exe"

注意:所有路径要用双反斜杠或正斜杠。


五、重启网关并验证

  1. 停止当前运行的gateway(如果有):
  2. powershell
  3. openclaw gateway stop
  4. 如果停止失败,手动杀掉占用18789端口的进程:
  5. powershell
  6. netstat -ano | findstr :18789 taskkill /PID <PID> /F
  7. 确认端口18789空闲(没有输出即空闲)。
  8. 重新启动gateway
  9. powershell
  10. openclaw gateway start
  11. 打开TUI界面
  12. powershell
  13. openclaw tui
  14. 在TUI里按/model切换模型,选择llama-cpp-local/Qwen3.5-9B-IQ4_NL,然后开始对话吧!

六、注意事项(必看!)

⚠️ 显存与性能平衡

  • 我的环境是16G内存 + 4060 8G,运行Qwen3.5-9B IQ4_NL,显存占用约7.2G(-ngl 99时)。如果你的显存只有8G,提议关闭其他占用显存的程序(浏览器、游戏等),否则可能OOM。
  • 若显存不够,将-ngl降到30-40,让CPU分担一些层,速度依然可观。

⚠️ 上下文长度必须大于16k

OpenClaw要求上下文至少16k,我们设了32k,完美满足。但注意,上下文越长,显存占用越高,如果出现显存溢出,可以适当降低-c值(列如16384)。

⚠️ 模型ID不要带.gguf

OpenClaw配置里的models.id必须是纯名称,不能有.gguf后缀,否则会报错。

⚠️ apiKey一致性

如果你在启动llama-server时加了–api-key sk-local,那么yaml里的apiKey必须一致;如果没加,可以随意填(OpenClaw不会验证)。

⚠️ 路径中的反斜杠

Windows路径在YAML里要转义,用双反斜杠\或正斜杠/,否则解析会出错。


七、效果实测

我在TUI里连续对话了几轮,32k上下文下,模型能记住前面所有内容,回答质量极高,速度稳定在45 token/s左右,完全感觉不到是在本地跑。配合OpenClaw的插件系统,还可以实现联网搜索、画图等功能,可玩性爆表!


八、总结

Ollama适合快速上手,但如果你追求极致性能和灵活控制,llama.cpp + OpenClaw才是王道。特别是你手里有NVIDIA显卡,想跑超大上下文模型,这一套组合拳绝对让你爽到!

赶紧动手试试吧! 遇到问题欢迎在评论区留言,我会尽力解答。如果你有更好的量化模型或优化技巧,也欢迎分享!


#本地部署 #AI #Qwen #llamacpp #OpenClaw #干货分享

#人工智能将如何影响人类的未来?#

© 版权声明

相关文章

暂无评论

none
暂无评论...