别再让大模型胡说八道了！手把手教你用RAG技术，让AI真正长记性

内容分享2个月前发布

11 0 0

你的AI助手终于不再失忆了

作为一名程序员，你是否遇到过这样的场景：

向ChatGPT询问公司内部的API使用方法，它给你编造了一个不存在的接口；让它帮忙写代码，它引用了早已废弃的库；问它最新的技术框架，它的知识还停留在两年前。

这不是AI不机智，而是大模型有一个致命的缺陷——它只能记住训练时看到的东西，对训练数据之外的内容一无所知。

那么，如何让大模型使用我们自己的数据、最新的数据、甚至那些只有你自己知道的信息？

答案就是今天的主角：RAG（检索增强生成）。

什么是RAG？一个让小助理去查资料的CEO

先来一个最直观的理解：

想象你是一家公司的CEO，能力很强（这就是大语言模型），但你的记忆只停留在大学毕业那一刻。毕业后的所有事情你都不知道。

这时有人问你：“我们公司Q3的财报怎么样？”你会怎么办？

两个选择：

胡编乱造 —— 这就是大模型的“幻觉”
先让人去查一下资料，然后你根据资料来回答 —— 这就是RAG

RAG的全称是Retrieval-Augmented Generation，翻译过来就是“检索增强生成”。它的工作流程简单来说就是三步：

当用户提问时 → 先去知识库中检索相关内容 → 把检索到的内容和问题一起交给大模型 → 大模型基于这些信息生成答案

这个看似简单的流程，却解决了大模型最头疼的几个问题。

RAG vs 微调 vs 超长上下文：到底该怎么选？

市面上有几种让大模型“学习”新知识的方法，许多人分不清该用哪个。我们先来做个对比：

RAG就像临时抱佛脚：每次回答问题前先去查资料。优点是灵活、更新及时、成本低；缺点是需要额外搭建检索系统。

微调就像让AI参与培训班：用大量的新数据重新训练模型的一部分参数。优点是模型会真正“学会”新知识；缺点是贵、慢、容易遗忘旧知识。

超长上下文就像给AI一个超大内存：直接把所有资料都塞给模型。优点是简单粗暴；缺点是成本极高、处理慢、信息容易被淹没。

我给个简单的选择提议：

数据常常变化 → RAG（列如新闻、公司内部文档）
只需要掌握特定风格或格式 → 微调（列如让模型模仿某作家的文风）
临时处理大文件 → 超长上下文（列如分析一份100页的PDF）
大多数情况 → RAG优先，不够再加微调

RAG的工作原理：三个组件如何协作

了解了基本概念，我们来深入一下技术细节。一个完整的RAG系统由三个核心组件构成：

1. 检索器（Retriever）

负责从知识库中找到与问题相关的文档片段。说人话就是：情报收集员。

它的工作原理一般是：先把你的知识库切分成小块，每块用Embedding模型转换成向量（可以理解为给每个文档块生成一个“指纹”），存入向量数据库。当用户提问时，同样把问题转成向量，去数据库中找到最类似的N个文档块。

常用的向量数据库有：Chroma、Pinecone、Weaviate、Milvus。如果只是想快速尝试，Chroma是个不错的选择。

2. 增强器（Augmenter）

负责把检索到的内容和原始问题整合成一个完整的Prompt。说人话就是：整理信息的秘书。

这一步看似简单，实则很有讲究。Prompt的结构直接影响回答质量。一个经典的RAG Prompt格式是：

text

你是一个专业的助手，请基于以下参考资料回答用户的问题。

参考资料：
{检索到的内容}

用户问题：{问题}

要求：
1. 如果参考资料中有答案，请准确回答
2. 如果参考资料中没有答案，请直接说“不知道”，不要编造
3. 回答时要引用具体的参考资料

3. 生成器（Generator）

就是大语言模型本身，负责根据增强后的Prompt生成最终答案。说人话就是：发号施令的CEO。

选择什么样的模型很关键。如果你需要私有化部署，可以选择开源的Llama 3、Qwen、ChatGLM等；如果追求效果，GPT-4、Claude 3.5是最佳选择。

手把手实现：30分钟搭建你自己的RAG系统

理论说完了，我们来点实际的。我带你用Python搭建一个最简单的RAG系统，读完这篇文章你就能跑起来。

第一步：安装必要的库

bash

pip install langchain chromadb openai tiktoken

第二步：准备你的知识库

创建一个文本文件knowledge.txt，写入你想让AI学习的内容：

text

公司内部API接口文档：
- 用户信息接口：/api/user/info，GET方法，返回用户基本信息
- 订单查询接口：/api/order/query，POST方法，需要传入order_id参数
- 支付接口：/api/payment/create，POST方法，需要传入amount和user_id

重大通知：2025年开始，公司统一使用新的认证方式，旧的token认证将被废弃。

第三步：写代码

python

from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

# 1. 加载文档
loader = TextLoader("knowledge.txt")
documents = loader.load()

# 2. 切分文档（重大：太长的内容会影响检索效果）
text_splitter = CharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)
texts = text_splitter.split_documents(documents)

# 3. 创建向量数据库
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(texts, embeddings)

# 4. 创建检索器
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

# 5. 创建大模型
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

# 6. 组装RAG链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever
)

# 测试一下
question = "用户信息接口怎么用？"
answer = qa_chain.run(question)
print(answer)

就这么简单！运行这段代码，你会发现AI能准确回答你知识库里的内容，而不会胡编乱造。

RAG的高级技巧：不只是“检索+生成”

基础的RAG虽然能用，但在实际生产环境中会遇到各种问题。这里分享几个实战技巧：

1. 检索质量优化

许多RAG系统效果不好，80%的缘由是检索这一步出了问题。

HyDE技术：先让模型生成一个假想的答案，再用这个假想答案去检索。这听起来有点绕，但实践证明效果很好。
多路检索：同时使用多种检索方式（关键词搜索、向量搜索、混合搜索），然后合并结果。
重排序：检索出Top 20个结果后，用一个更准确的模型重新打分，选出最相关的3-5个。

2. 针对代码库的RAG优化

如果你是程序员，想让RAG帮你理解项目代码库，需要注意：

不要按固定长度切分代码，按函数、类、文件的结构来切
保留代码的依赖关系信息
把注释和代码一起索引

有个叫RepoCoder的开源项目，专门做了代码库的RAG优化，生成的代码准确率高许多。

3. 对话记忆

RAG本身是无状态的，每次提问都是独立的。如果你想让AI记住之前的对话，需要额外维护一个对话历史：

python

# 把之前的对话也加入检索上下文
conversation_history = [
    "用户：我想查订单",
    "AI：请问您的订单号是什么？",
    "用户：ORDER123"
]
# 将历史记录与当前问题一起检索

RAG vs 传统搜索：降维打击

有人可能会问：RAG和传统的搜索引擎有什么区别？

传统搜索给你的是一堆链接，你需要自己点进去阅读、总结、提取信息。RAG直接给你最终的答案。

举个例子：

问：“我们的API文档中，用户信息的接口参数是什么？”

传统搜索：返回包含“用户信息接口”的文档列表，你得一个个打开看
RAG：直接回答“用户信息接口是/api/user/info，使用GET方法”

这就是为什么RAG正在改变信息检索的方式——它把“找信息”变成了“获取答案”。

RAG的未来：2025年后的想象空间

RAG技术正在快速发展，几个值得关注的方向：

多模态RAG：不仅能检索文字，还能检索图片、视频、音频。列如问“上次产品会议中提到的那个架构图”，AI能从会议录屏中找到那一帧画面。

主动检索：模型在生成答案的过程中，如果发现信息不足，会自动触发新的检索。

自我反思RAG：模型会评估自己的回答是否可信，如果不确定，会主动承认或要求更多信息。

结语：每个程序员都应该掌握的技能

RAG不是什么高深莫测的技术，它就是一个简单而优雅的思想：不要强迫模型记住一切，而是教会它如何查找信息。

这个思想不仅适用于大模型，也适用于我们每个人的工作方式。与其尝试记住所有东西，不如建立一个高效的信息管理系统。

目前我打开任何一个大模型应用，第一个问题都是：“你能检索我的文档吗？”如果答案是否定的，我会毫不犹豫地自己搭一个RAG系统。

由于我知道，一个不会查资料的AI，就像一个有智商但没有记忆的天才，注定无法真正帮我解决问题。

你目前就可以开始了。

你的第一个RAG项目不需要很复杂：找几篇你收藏已久的文章，让AI能基于它们回答问题。你会发现，当AI不再胡言乱语时，它才真正开始变得有用。

内容分享

文章版权归作者所有，未经允许请勿转载。

不止好好活，更要好好死：人生新视角

内容分享

5个月前

380

JavaScript 合并数组的三种方法

内容分享

7个月前

080

自适应残差卷积网络 + 斑马优化：让图像更清晰的“智慧组合“

内容分享

7个月前

010

im即时通讯app 红包扫雷万人群控机器人一键禁抢自动赔付源码搭建

内容分享

2周前

000

暂无评论

暂无评论...

别再让大模型胡说八道了！手把手教你用RAG技术，让AI真正长记性

什么是RAG？一个让小助理去查资料的CEO

RAG vs 微调 vs 超长上下文：到底该怎么选？

RAG的工作原理：三个组件如何协作

手把手实现：30分钟搭建你自己的RAG系统

RAG的高级技巧：不只是“检索+生成”

RAG vs 传统搜索：降维打击

RAG的未来：2025年后的想象空间

结语：每个程序员都应该掌握的技能

AI写作软件永久免费的有吗？看看这几款

AI_NovelGenerator - 开源长篇小说自动生成工具

相关文章

不止好好活，更要好好死：人生新视角

JavaScript 合并数组的三种方法

自适应残差卷积网络 + 斑马优化：让图像更清晰的“智慧组合“

im即时通讯app 红包扫雷万人群控机器人一键禁抢自动赔付源码搭建

暂无评论

热门网站

闪控猫-直播运营控制

中国移动139邮箱

189邮箱

铁路12306

京东商城

Amazon

热门文章

4.1.8【2016统考真题】

苹果电池隐藏技巧！激活容量+续航查询，延长手机寿命

企业AI治理体系设计的成本控制，AI应用架构师的方法

用CloudCompare实现两帧点云数据的精准对齐

Vulhub靶场通关教程详解

基于C++的中药方综合管理平台系统设计和实现的详细项目实例

别再让大模型胡说八道了！手把手教你用RAG技术，让AI真正长记性

什么是RAG？一个让小助理去查资料的CEO

RAG vs 微调 vs 超长上下文：到底该怎么选？

RAG的工作原理：三个组件如何协作

手把手实现：30分钟搭建你自己的RAG系统

RAG的高级技巧：不只是“检索+生成”

RAG vs 传统搜索：降维打击

RAG的未来：2025年后的想象空间

结语：每个程序员都应该掌握的技能

AI写作软件永久免费的有吗？看看这几款

AI_NovelGenerator - 开源长篇小说自动生成工具

相关文章

热门网站

闪控猫-直播运营控制

中国移动139邮箱

189邮箱

铁路12306

京东商城

Amazon

热门文章

标签云