Dify 个人知识库搭建主要有以下几种方法:
一、本地文件导入(最基础方式)
1. 支持格式:TXT、Markdown、PDF、Word、Excel、HTML等(单个文件≤15MB)
2. 操作步骤:
– 登录Dify → 进入「知识库」→ 点击「创建知识库」
– 选择「导入已有文本」→ 上传本地文件
– 配置分段规则(推荐默认设置)
– 选择Embedding模型(如BAAI/bge-m3)
– 设置索引方式(高质量模式)和检索方式(混合检索)
– 点击「保存并处理」完成向量化
二、外部平台同步(自动化更新)
1. Notion同步:
– 选择「同步自Notion内容」
– 授权连接Notion账号后自动同步指定页面
2. 网页抓取:
– 选择「同步自Web站点」
– 输入目标URL(如博客/文档网站)
– 支持整站爬取或单页抓取
三、API批量导入(适合开发者)
1. 通过Firecrawl等爬虫工具批量抓取网页内容
2. 调用Dify知识库API(”POST /datasets/{id}/documents”)
3. 示例流程:# 使用Python批量导入
import requests
api_key = “your_api_key”
dataset_id = “knowledge_base_id”
response = requests.post(
f”https://api.dify.ai/v1/datasets/{dataset_id}/documents”,
headers={“Authorization”: f”Bearer {api_key}”},
json={“text”: “文档内容”, “metadata”: {“source”:”自定义来源”}}
)
四、连接外部知识库(企业级方案)
1. 支持系统:RAGFlow、Milvus、Pinecone等
2. 配置方法:
– 在Dify中添加外部API(需提供Endpoint和API Key)
– 创建知识库时选择「连接外部知识库」
– 输入外部知识库ID完成对接
五、混合增强方案
1. 父子分段策略:
– 父块(1024字符)保留完整上下文
– 子块(512字符)用于精准检索
– 重叠50字符保证语义连贯
2. 多模型组合:
– 用BGE模型做向量检索
– 用BCE模型做重排序(Rerank)
– 设置Score阈值过滤低质量结果
注意事项
1. 敏感数据提议选择本地部署(Docker方案)
2. 学术论文等专业文档提议启用「Q&A分段」模式
3. 可通过元数据(如user_name)实现多用户隔离
«附:知识库优化口诀
「分段长度适中好,父子结构不可少;
混合检索效果佳,模型选型看指标」»