上周我花3天时间,从零开始用扣子搭建了一个电商客服智能体。
过程中踩了5个大坑,每个坑都让我浪费了半天时间。
目前把这些坑写下来,希望能帮你省下这3天弯路。

坑1:一上来就想做”全能型”智能体
我的错误:刚开始野心太大,想做能回答所有问题、还能推荐商品、还能追踪订单的”超级客服”。
结果:工作流节点堆了50多个,逻辑复杂到连我自己都看不懂,测试时各种报错,花了2天还没跑通。
正确做法:先做一个”最小可用产品”(MVP),只解决一个核心问题。
我的调整:把目标缩减到”只能回答3个最常见问题”,工作流节点减到8个,2小时就跑通了。
核心逻辑:先跑通闭环,再逐步扩展。一个能用的简单智能体,胜过一个完美但跑不了的复杂系统。

坑2:知识库一锅端,不管数据质量
我的错误:把公司所有文档、FAQ、产品手册全部上传到知识库,以为越多越好。
结果:智能体开始乱回答,幻觉率飙升,常常答非所问。列如问”退货流程”,它给了一个完全不相关的产品介绍。
正确做法:精简知识库,只上传高质量的、结构化的核心数据。
我的调整:
- 删除了80%的冗余文档
- 只保留30个最核心的FAQ
- 手动标注每个问题的标准答案
- 幻觉率从15%降到3%以下
核心逻辑:垃圾进,垃圾出。知识库质量比数量重大100倍。
坑3:提示词写得像写代码
我的错误:提示词写得特别详细,像写代码一样规范,甚至用了许多技术术语。
结果:AI反而理解困难,常常输出格式不正确的内容。
正确做法:用大白话写提示词,越简单越好。
我的调整:把提示词从200字缩减到50字,用最直白的语言描述需求。
核心逻辑:提示词不是写给程序员看的,是写给AI看的,简单直白效果最好。
坑4:忽略测试环节,直接上线
我的错误:工作流搭建完,试了一下觉得没问题,就直接发布了。
结果:上线后遇到各种边缘案例,列如用户问”能不能退货但留部分商品”,系统直接报错,用户流失严重。
正确做法:至少测试20-30个不同场景,覆盖各种边缘案例。
我的调整:我设计了30个测试用例,包括:
- 常规问题(20个)
- 边缘案例(8个)
- 恶意测试(2个)
测试后修复了5个逻辑漏洞,上线后基本稳定。
核心逻辑:测试不是浪费时间,是省下更大的麻烦。
坑5:不会用”阈值”控制准确率
我的错误:完全不知道”阈值”是什么,默认值就是0.5,也没调过。
结果:准确率忽高忽低,有时候回答很精准,有时候完全在乱说。
正确做法:根据业务场景调整阈值,是扣子最关键但最容易被忽视的功能。
我的调整:
- 冷启动阶段:阈值设为0.42,优先保证响应
- 两周后:阈值调到0.65,准确率提升8%,误拒率降低5%
- 交易节点:阈值设为0.55,强制二次确认
核心逻辑:阈值是平衡准确率和响应率的关键,必定要根据场景动态调整。
总结:新手搭建的5个正确步骤
基于我踩的坑,整理出一个正确的流程:
第1步:定位目标(30分钟)
- 明确智能体只做什么,不做什么
- 选择一个高频场景,避免全能型陷阱
第2步:搭建工作流(2小时)
- 从简单开始,节点控制在10个以内
- 用大白话写提示词,越简单越好
第3步:优化知识库(1小时)
- 只上传高质量、结构化的核心数据
- 删除冗余文档,知识库质量比数量重大
第4步:全面测试(1小时)
- 至少设计20-30个测试用例
- 覆盖常规、边缘、恶意三种场景
第5步:调阈值上线(持续)
- 冷启动:0.42,保证响应
- 稳定期:0.65,提升准确率
- 交易点:0.55,强制确认
总计:5小时就能完成一个可用的智能体。
三个避坑工具
工具1:测试用例模板
我整理了30个常见测试场景,包括常规、边缘、恶意三类,覆盖了90%的用户咨询类型。
工具2:提示词模板
总结了一套”50字大白话”提示词模板,涵盖客服、咨询、推荐三大场景,直接套用。
工具3:阈值调整表
根据冷启动、稳定期、交易点三个阶段,给出不同的阈值提议,避免瞎调。
(如果需要,我可以整理成文档发给你)
最后的忠告
第一个智能体,别想着完美。
能解决问题就行,跑起来比完美重大100倍。
你可以先发布,收集用户反馈,然后持续迭代。
真正的智能体不是一次做好的,是用户帮你优化出来的。
你的第一个智能体是什么?
你打算做什么类型的智能体?
评论区告知我,我帮你避开我踩过的坑。


