Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

前言

在当今快速发展的 AI 应用生态中,Dify 作为一个开源的大模型应用平台,允许用户轻松构建自定义的 AI 应用。随着 Dify 1.6 的发布,其对工具链的支持更加灵活和强劲。本文将详细介绍如何在 Dify 1.6 中集成 Firecrawl 工具来抓取网页内容,并将其用于构建强劲的信息检索或数据采集类应用。

Firecrawl工具的安装

我们可以在dify的工具页面,找到或者搜索Firecrawl进行安装

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

安装完成之后,我们就可以点击该工具查看详细

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

该工具一共包含4个action:

爬取任务处理:根据爬取任务ID获取爬取结果,或者撤销爬取任务

深度爬取:递归爬取一个网址的子域名,并收集内容。

地图式快爬:输入一个网站,快速获取网站上的所有网址。

单页面抓取:将任何网址转换为干净的数据。

使用Firecrawl工具,需要得到Firecrawl网站的授权

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

我们到Firecrawl网站去获取key,然后设置到Firecrawl工具中,保存显示已授权,就成功了

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

网页内容抓取应用编排

回到dify的工作室页面,我们新建一个workflow的应用,在开始节点设置变量,接受一个网址:

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

下一个节点选择工具-firecrawl选择深度爬取:

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

在输出的内容中,我们输出爬取的内容text

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

点击运行,我们输入一个网址:

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

点击开始运行,我们可以在追踪中看执行情况:

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

执行成功,可以在详情中看输出结果:

Dify 1.6 集成 Firecrawl工具 抓取网页内容:技术实践指南

输出的文本如果想做进一步处理,后面可以对应用接着编排,列如输出到文档中,转成markdown格式,或者连接数据库,保存到库里面,都是可以的。

结语

通过 Dify 1.6 的强劲工作流能力和 Firecrawl 的高效网页解析能力,我们能够快速构建一个功能完整的网页内容抓取与摘要系统。这不仅适用于新闻聚合、内容推荐、知识库构建等场景,也为企业级 AI 应用开发提供了极大的便利。如果你正在寻找一种无需编码即可实现复杂任务的方式,Dify + Firecrawl 绝对是一个值得尝试的组合!

© 版权声明

相关文章

2 条评论

  • 头像
    好好读书 读者

    好思路💪

    无记录
    回复
  • 头像
    你将是我最美的新娘 读者

    收藏了,感谢分享

    无记录
    回复