阿里开源WebSailor智能体 领跑开源网络智能体评测新榜单
时间:2025-07-10 07:05
小编:小世评选
潮新闻客户端记者 张云山报道
2023年7月7日,阿里巴巴通义团队正式开源了名为WebSailor的智能体。这款智能体以其卓越的推理和信息检索能力而备受瞩目, recently 在一个名为BrowseComp的高难度智能体评测集上,WebSailor的得分超越了多款知名模型和智能体,如DeepSeek R1和Grok-3,成功夺得开源网络智能体排行榜的第一名。目前,WebSailor的架构方案以及部分数据集已经在Github上公开。
作为近年来人工智能领域的重要发展之一,大模型在信息检索和推理方面的性能提升显著。在面对高度不确定或信息模糊的任务时,现有AI系统的回答准确率仍难以令人满意。今年四月,OpenAI推出了BrowseComp浏览器检索评测集,专门用于评估大型模型和智能体的检索性能。自评测集发布以来,这里面包含的1266个高难度问题被认为是当前最具挑战性的评测集之一,迄今为止尚无开源系统能够接近闭源模型的成绩。这为阿里通义的WebSailor创造了不小的挑战与机遇。
WebSailor智能体的核心挑战在于复杂场景下的信息检索任务,往往涉及到多个网页上散布的模糊线索。例如,“这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获得当地荣誉称号,旋律的创作者曾就读于哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?”这种问题不仅要求AI主动从广阔的互联网中获取信息,还需要其具备过滤无关信息、进行多步推理和交叉验证的能力。只有这样,模型才能在嘈杂的信息环境中将所有线索有效串联起来。
阿里通义的实验室在构建数据集阶段进行了创新,开发了大量高不确定性的复合任务数据集SailorFog-QA。同时,他们还针对Qwen模型进行了冷启动微调,使其学习到了超越人类的复杂推理模式。团队还提出了一种名为DUPO的高效强化学习算法,该算法基于双阶段动态采样策略,大幅提高了训练效率。这种方法确保即使在需要频繁工具互动的复杂情境中,模型也能快速迭代和更新,相较于传统方法,DUPO将复杂智能体的强化学习训练速度提升了2到3倍,为高效的智能体训练提供了极大的便利。
WebSailor的评测结果显示,其在BrowseComp评测集上的表现令人瞩目。通过实测,WebSailor-32B和WebSailor-72B在开源模型和智能体领域取得了显著领先,甚至超越了不少闭源模型,如DeepSeek R1和Grok-3,仅在闭源的OpenAI DeepResearch之后。这一成绩不仅为开源社区树立了标杆,也为未来的发展注入了新的动力。
WebSailor在处理普通任务方面的表现同样不容小觑。在测试简单问答数据集SimpleQA时,WebSailor的表现也超越了其他竞争对手,展现出其良好的兼容性和有效性。这一结果验证了WebSailor方法的广泛适用性和优秀的泛化能力。
阿里通义团队的努力并不仅限于WebSailor。自今年以来,他们陆续推出了包括WebWalker、WebDancer在内的多款检索和推理智能体,并且所有这些智能体均获得了SOTA(State-of-the-Art)级别的优秀成绩,标志着阿里在网络智能体领域的持续进步与创新。
随着大模型和智能体技术的不断成熟,WebSailor的推出将为开源社区和人工智能研究带来新机遇。业界期待在未来,随着技术的进一步发展,阿里通义能够继续推动智能体领域的创新,开发出更多具备实用价值的智能产品,从而更好地服务于社会各个层面。