背景
近期,许多同学在 RAG(Retrieval-Augmented Generation)技术选型时遇到困难。随着开源项目的不断涌现,如 RAGFlow、FastGPT、Dify 和 QAnything 等,选择一个合适的解决方案变得复杂起来。众所周知,对于知识库项目来说,准确率是衡量其效果的核心指标。因此,本次测评主要从准确率视角出发,对这些开源项目进行横向对比。其他维度,如开源协议、性能、服务器配置等,将在后续的专项测评中进行。
什么是 RAG?
在进入测评前,我们简单了解一下 RAG。RAG 技术结合了检索和生成两种能力:
- 检索(Retrieval):从知识库中找到与用户问题相关的信息。
- 生成(Generation):基于检索到的信息,利用大语言模型生成答案。
这种方式可以大幅提升问答的准确性和相关性,尤其在应对企业知识库场景时表现突出。
测评原则
为了尽量公平、客观地进行测评,本次测试遵循以下原则:
- 贴近用户场景:文中测评口径与方式尽可能贴近用户的生产场景,站在用户视角,通过预设问题,将实际答案与预期答案进行比较。
- 主观判断为辅:根据实际结果与预期答案的匹配度进行判断,同时结合用户的直观感受。
- 版本选择:基于产品的试用环境进行测评,商业版功能不在本次测评范围内。
- 配置尽可能保持统一:
- LLM CHAT 模型统一 Qwen2.5-32B-Instruct
- Embedding 模型统一 BAAI/bge-m3
- Rerank 模型统一 BAAI/bge-reranker-v2-m3
- 检索方式统一 混合检索
- 其他应用产品默认选项
测评方式
测试对象
RAGFlow、FastGPT、Dify、QAnything
测试文档选取
测试共分为单文档和多文档两种方式。单文件主要测试维度为文件格式以及不同行业文件,选择的文档会思考到排版与结构。
- 使用说明书:电风扇使用说明书.pdf
- 法律法规:古树名木保护条例.docx
- 技术文档:开源项目协助中心文档.md
测试报告
使用说明书 PDF 文档
问题 1:电风扇说明书的目录有哪些?
预期答案
实际答案Dify 本文档无法正常切分,无法使用FastGPT 如下:
QAnything 如下:
RAGFlow 如下:
结论:QAnything 和 RAGFlow 表现相对准确
问题 2:电风扇高度怎么调节?
预期答案
实际答案Dify 本文档无法正常切分,无法使用 FastGPT 如下:
QAnything 如下:
RAGFlow 如下:
结论:这个问题 FastGPT、QAnything、RAGFlow 都回答上了要点,Dify 由于文档未能正常分块,不做对比。
法律法规 Doc 文档
问题 1:采伐、移植古树名木应该怎么处罚?
预期答案
实际答案Dify 如下:
FastGPT 如下:
QAnything 如下:
RAGFlow 如下:
结论:由于问题比较简单,全部命中正确
问题 2:某城市内有一棵树龄 400 年的古树,因国家重点水利项目选址无法避让,需进行移植。请问该古树属于何种保护等级?移植审批需经过哪些程序?移植费用由谁承担?
实际答案Dify 如下:
FastGPT 如下:
QAnything 如下:
RAGFlow 如下:
结论:该问题比较复杂,从回答结论来看,FastGPT > RAGFlow > Dify > QAnything
开源协助中心 MarkDown 文档
测试用例采用批量导入多个 MarkDown 文件,还原企业官网产品文档、技术文档真实场景。
问题:Windows 下安装和部署MinDoc
预期答案
实际答案Dify 如下:
FastGPT 如下:
QAnything 如下:
RAGFlow 如下:
结论:从回答结论来看,RAGFlow 和 QAnything 质量明显优于其他两个。
测试结论
综合测评来看:
- RAGFlow、QAnything、FastGPT 整体差距不大。个人主观感受 RAGFlow 最准确,但是回答格式排版不及 FastGPT 和 QAnything。
- Dify 准确率相对较低,Dify 作为 Agent ,核心优势在任务流编排和丰富的能力扩展。
需要注意的是,本次测评基于在线 API 环境,若切换至本地私有化部署,准确率可能存在显著差异。此外,准确率的表现也受到产品默认的分段和分块策略影响,因此本次测评结果仅能反映在指定配置和测试文档下的局部表现。如果有同学需要本地化部署支持,欢迎关注 「KnowFlow 企业知识库」公众号,我可以提供相关协助。
主要是对本地的pdf word excel 文档进行知识库管理,推荐用哪个?楼主。
excel 难度最大,word 最简单,如果硬件配置可以的话,推荐用 ragflow ,配置一般,推荐 fastgpt
我也对比测试了FastGPT和Ragflow,从准确度来说二者差不多,甚至FastGPT略好一些,但是从响应速度来看,Ragflow很慢,FastGPT明显快一些
dify的pdf识别不行,需要自行先转为md或者魔改它的识别代码。dify优势在其开放性和三方生态
RAGFLow的配置复杂,从模型,到embedding, rerank, raptor, graphrag,关键词,关键页面等等,细节超多,需要优化。
我觉得商用Retrieval部分肯定要自己重写吧…langchain的官方包也不行啊
这块网易是强项
从应用角度测评AI AGENT。不错!
赞
下一步,我得试试这些开源项目了!
用什么大模型?
qanything我感觉对excel表格非常好,后来deepseek效果更佳了
对比得很客观
ragflow确实强大
辛苦了
结果很有参考
测评很详细呢
分析得很到位
收藏了,感谢分享