用llama.cpp+OpenClaw本地部署Qwen3.5，实现token自由！

内容分享23秒前发布种豆得瓜谢不谦

0 0 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

最近本地大模型圈子里，Ollama成了小白首选，一键安装的确方便。但如果你用的是NVIDIA显卡（列如我这张4060 8G），又想把硬件性能彻底榨干，那llama.cpp才是真正的性能怪兽！

今天我就手把手教你，如何在Win11上用llama.cpp部署阿里最新Qwen3.5-9B模型，再接入OpenClaw网关，实现网页端流畅对话。上下文拉到32K，8G显存也能跑，速度还快得飞起！

用llama.cpp+OpenClaw本地部署Qwen3.5，实现token自由！

一、为什么要抛弃Ollama，选择llama.cpp？

Ollama虽然简单，但封装了一层，对于特定硬件优化不够极致。而llama.cpp是底层推理引擎，直接调用CUDA，能精细控制显存占用、批处理大小，甚至支持IQ4_NL这种超强量化格式——模型缩小到5-6GB，几乎不损失智商！

我实测Qwen3.5-9B（IQ4_NL量化），在4060 8G+16G内存的机器上，全卸载到GPU（-ngl 99），生成速度能达到40-50 token/s，而且32K上下文毫无压力。Ollama跑同样模型，显存管理就没这么灵活。

二、准备工作：模型和工具下载

下载llama.cpp Windows版
去GitHub Releases下载最新llama-bXXXX-bin-win-cuda-xx.x-x64.zip，解压到D:llama-b8234-bin-win-cuda-12.4-x64（路径自定）。
下载Qwen3.5-9B IQ4_NL模型
去Hugging Face或ModelScope搜索“Qwen3.5-9B IQ4_NL”，下载GGUF格式文件（列如Qwen3.5-9B-IQ4_NL.gguf），放到D:llama_models。
安装OpenClaw网关
如果你还没装，去OpenClaw官方仓库下载，安装后确保openclaw命令可用。

三、启动llama.cpp推理服务器

打开PowerShell，进入llama.cpp目录，运行：

powershell

.llama-server.exe -m D:llama_modelsQwen3.5-9B-IQ4_NL.gguf -ngl 99 -c 32768

参数解释：

-m 模型路径（我的模型路径为D:llama_models，需要修改为实际路径）
-ngl 99 将99层卸载到GPU（即几乎所有层都用显卡跑，前提是显存够）
-c 32768 上下文长度设为32K（满足OpenClaw要求）

注意：如果你的4060 8G显存不够全卸载，可以适当降低-ngl值（列如-ngl 40），剩余层用CPU跑，速度会慢一些，但稳定不爆显存。

看到Listening on http://127.0.0.1:8080就成功了！这个地址就是OpenClaw要对接的API。

四、配置OpenClaw接入本地模型

OpenClaw的配置文件一般是~/.openclaw/config.yaml（或项目目录下的gateway.yaml）。我们需要修改以下几个关键部分：

1. 修改gateway token（可选）

yaml

gateway:
  token: sk_4dxxxx6-2d58-4xx9-87d1-d19xxxxx61d5   # 可随机生成或保持默认

2. 添加provider（指向llama.cpp）

yaml

providers:
  - id: llama-cpp-local
    type: openai
    baseURL: http://127.0.0.1:8080/v1   # 确保和llama-server地址一致
    apiKey: sk-local                     # 必须与llama-server --api-key参数一致（这里没设，随意填）
    models:
      - id: Qwen3.5-9B-IQ4_NL             # 模型ID，不要带.gguf
        contextWindow: 32768              # 必须大于16k，这里32k
        maxTokens: 8192                    # 最大输出token，可按需调整

3. 添加agent（定义对话助手）

yaml

agents:
  - id: main
    name: My Local Qwen
    model: llama-cpp-local/Qwen3.5-9B-IQ4_NL   # 格式：providerID/模型ID
    systemPrompt: 你是一个乐于助人的助手。
    temperature: 0.7

4. 其他配置（插件路径、Python路径等）

yaml

pluginsDir: "C:\Users\你的用户名\openclaw\plugins"
pythonPath: "C:\Users\你的用户名\AppData\Local\Programs\Python\Python312\python.exe"

注意：所有路径要用双反斜杠或正斜杠。

五、重启网关并验证

停止当前运行的gateway（如果有）：
powershell
openclaw gateway stop
如果停止失败，手动杀掉占用18789端口的进程：
powershell
netstat -ano | findstr :18789 taskkill /PID <PID> /F
确认端口18789空闲（没有输出即空闲）。
重新启动gateway：
powershell
openclaw gateway start
打开TUI界面：
powershell
openclaw tui
在TUI里按/model切换模型，选择llama-cpp-local/Qwen3.5-9B-IQ4_NL，然后开始对话吧！

六、注意事项（必看！）

⚠️ 显存与性能平衡

我的环境是16G内存 + 4060 8G，运行Qwen3.5-9B IQ4_NL，显存占用约7.2G（-ngl 99时）。如果你的显存只有8G，提议关闭其他占用显存的程序（浏览器、游戏等），否则可能OOM。
若显存不够，将-ngl降到30-40，让CPU分担一些层，速度依然可观。

⚠️ 上下文长度必须大于16k

OpenClaw要求上下文至少16k，我们设了32k，完美满足。但注意，上下文越长，显存占用越高，如果出现显存溢出，可以适当降低-c值（列如16384）。

⚠️ 模型ID不要带.gguf

OpenClaw配置里的models.id必须是纯名称，不能有.gguf后缀，否则会报错。

⚠️ apiKey一致性

如果你在启动llama-server时加了–api-key sk-local，那么yaml里的apiKey必须一致；如果没加，可以随意填（OpenClaw不会验证）。

⚠️ 路径中的反斜杠

Windows路径在YAML里要转义，用双反斜杠\或正斜杠/，否则解析会出错。

七、效果实测

我在TUI里连续对话了几轮，32k上下文下，模型能记住前面所有内容，回答质量极高，速度稳定在45 token/s左右，完全感觉不到是在本地跑。配合OpenClaw的插件系统，还可以实现联网搜索、画图等功能，可玩性爆表！

八、总结

Ollama适合快速上手，但如果你追求极致性能和灵活控制，llama.cpp + OpenClaw才是王道。特别是你手里有NVIDIA显卡，想跑超大上下文模型，这一套组合拳绝对让你爽到！

赶紧动手试试吧！ 遇到问题欢迎在评论区留言，我会尽力解答。如果你有更好的量化模型或优化技巧，也欢迎分享！

#本地部署 #AI #Qwen #llamacpp #OpenClaw #干货分享

#人工智能将如何影响人类的未来？#

内容分享

文章版权归作者所有，未经允许请勿转载。

微信小程序中聊天精灵+语音播报

内容分享

2个月前

010

midjourney入门到精通！新手必看

内容分享 # ai # ai绘画 # midjourney

8个月前

1760

美国版百度贴吧Reddit |财报后大涨

内容分享 # ai # reddit # 搜索

8个月前

050

新原来AI模型也得”分工干活”！GPT、Claude、Gemini到底谁干哪行

内容分享

2天前

000

暂无评论

暂无评论...

用llama.cpp+OpenClaw本地部署Qwen3.5，实现token自由！

一、为什么要抛弃Ollama，选择llama.cpp？

二、准备工作：模型和工具下载

三、启动llama.cpp推理服务器

四、配置OpenClaw接入本地模型

1. 修改gateway token（可选）

2. 添加provider（指向llama.cpp）

3. 添加agent（定义对话助手）

4. 其他配置（插件路径、Python路径等）

五、重启网关并验证

六、注意事项（必看！）

⚠️ 显存与性能平衡

⚠️ 上下文长度必须大于16k

⚠️ 模型ID不要带.gguf

⚠️ apiKey一致性

⚠️ 路径中的反斜杠

七、效果实测

八、总结

小扎一夜反水，背刺开源！亲手葬送「Llama神话」，股价大涨12%

2026年5月英语学习工具推荐：五大产品评测夜读防生词卡壳

相关文章

微信小程序中聊天精灵+语音播报

midjourney入门到精通！新手必看

美国版百度贴吧Reddit |财报后大涨

新原来AI模型也得”分工干活”！GPT、Claude、Gemini到底谁干哪行

暂无评论

热门网站

3699小游戏

3699小游戏

建设工程教育网

百田网

小苹果网页助手

零五网教案教学设计试卷练习教学视频教学反思说课稿课件作文课文录音

热门文章

昆廷夫夫日常合集：昆廷夫妇全集免费直通车1080P超速播-未删减百度云秒拉缓存-高清画质自由看-可影视全网极速播放昆廷夫夫日常合集-昆廷夫妇全集在线点播免VIP高清未删减版-可影视秒播

国外VPS加速器2025年全面评测推荐

告别样板代码：Java Record如何让我的开发效率翻倍？

十几年了，霉霉怎么越来越红

新中考英语形容词比较级&最高级易错陷阱选择填空100题附答案解析

新Mistral AI发布Workflows：补齐企业AI智能体落地“最后一公里”

用llama.cpp+OpenClaw本地部署Qwen3.5，实现token自由！

一、为什么要抛弃Ollama，选择llama.cpp？

二、准备工作：模型和工具下载

三、启动llama.cpp推理服务器

四、配置OpenClaw接入本地模型

1. 修改gateway token（可选）

2. 添加provider（指向llama.cpp）

3. 添加agent（定义对话助手）

4. 其他配置（插件路径、Python路径等）

五、重启网关并验证

六、注意事项（必看！）

⚠️ 显存与性能平衡

⚠️ 上下文长度必须大于16k

⚠️ 模型ID不要带.gguf

⚠️ apiKey一致性

⚠️ 路径中的反斜杠

七、效果实测

八、总结

小扎一夜反水，背刺开源！亲手葬送「Llama神话」，股价大涨12%

2026年5月英语学习工具推荐：五大产品评测夜读防生词卡壳

相关文章

热门网站

3699小游戏

3699小游戏

建设工程教育网

百田网

小苹果网页助手

零五网 教案 教学设计 试卷练习 教学视频 教学反思 说课稿 课件 作文 课文录音

热门文章

标签云

零五网教案教学设计试卷练习教学视频教学反思说课稿课件作文课文录音