通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

内容分享2小时前发布
0 1 0

通义实验室 RAG 团队推出了最新研究成果 WebSailor!

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

这是一个大型语言模型驱动的自主网页浏览智能体。它的核心目标在于:理解用户以自然语言提出的复杂任务指令,然后像人类用户一样操作网页浏览器,通过点击、输入、导航等交互,一步步完成任务目标,并最终给出准确的结果或报告!

核心能力与技术亮点

理解与规划: 基于强劲的通义千问等大语言模型,WebSailor 能够深度理解用户复杂的、多步骤的意图,并将其分解成可执行的浏览操作序列(Plan)。

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

网页感知与交互:

  • 多模态理解: 它不仅理解网页文本,还能理解 HTML 结构、链接、按钮、表单等视觉和功能元素,构建对网页的“认知地图”。
  • 精准操作: 能够模拟人类点击、输入文本、选择下拉菜单、滚动页面等交互行为,与网页进行有效“沟通”。

信息提取与整合: 在执行过程中,它能从复杂的网页内容中精准识别、定位并提取所需的关键信息,并将分散在多步骤、多页面中的信息进行有效整合和结构化。

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

多轮任务处理: 能够处理需要跨越多个页面、甚至多个网站才能完成的复杂任务,具备任务状态的记忆和延续能力。

鲁棒性与适应性: 具备必定的错误恢复和容错能力(如处理页面加载失败、元素定位变化),并能适应不同网站的不同布局和交互逻辑。

主要功能

  • 复杂任务数据合成:WebSailor 使用 SailorFog-QA 方法生成高不确定性的复杂任务数据,模拟真实世界中信息搜索的复杂场景。

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

  • 多轮工具调用与推理重构:借助开源推理模型,WebSailor 能进行多轮工具调用,重构推理过程,高效处理复杂问题。
  • 强化学习算法:采用 DUPO 算法,通过动态采样策略优化训练效率,显著提升模型的决策能力。

性能表现:

WebSailor 在 BrowseComp,BrowseComp-zh,Xbench-DeepSearch,GAIA 等四个高难度 agent benchmark 上与一系列开闭源模型和 agent 进行了比较,结果如下图所示:

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

在四个任务上 WebSailor 都超越了所有开源的模型和 agent,其优势在极具挑战性的 BrowseComp-en 和 BrowseComp-zh 基准测试上表现得尤为突出。

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

对简单任务兼容性的测试表现:几乎所有基于智能体的方法的表现都优于直接回答,而 WebSailor 超越了所有其他方法,展现了其在简单任务上的兼容性和高效性。

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

此前开源的Agent在类似BrowseComp这样复杂的、超越人类能力边界的基准上几乎为零,WebSailor成为首个挑战BrowseComp基准的开源网络智能体。

开源意义:

降低研发门槛: 让全球开发者免费获取先进框架,避免从零开发,加速 AI Agent、人机交互等领域的研究和应用。

促进协作创新: 开放代码鼓励社区贡献,开发者可扩展优化、适配场景(如电商比价、科研收集),探索新交互,推动技术迭代。

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

推动标准与安全: 有助于建立透明、安全的开发标准,社区可共同制定伦理规范和安全边界,促进技术负责任发展。

通义实验室开源Web Agent 项目!WebSailor:提升复杂网页推理能力

验证提升模型能力: WebSailor 是测试大模型(LLM)理解、推理、规划和工具调用能力的绝佳场景,开源提供的真实反馈助力模型持续优化。

GitHub:https://github.com/Alibaba-NLP/WebAgent

© 版权声明

相关文章

1 条评论

  • 头像
    IKliyyy 投稿者

    收藏了,感谢分享

    无记录
    回复