阿里开源WebSailor智能体领跑开源网络智能体评测新榜单

时间：2025-07-10 07:05

小编：小世评选

潮新闻客户端记者张云山报道

2023年7月7日，阿里巴巴通义团队正式开源了名为WebSailor的智能体。这款智能体以其卓越的推理和信息检索能力而备受瞩目， recently 在一个名为BrowseComp的高难度智能体评测集上，WebSailor的得分超越了多款知名模型和智能体，如DeepSeek R1和Grok-3，成功夺得开源网络智能体排行榜的第一名。目前，WebSailor的架构方案以及部分数据集已经在Github上公开。

作为近年来人工智能领域的重要发展之一，大模型在信息检索和推理方面的性能提升显著。在面对高度不确定或信息模糊的任务时，现有AI系统的回答准确率仍难以令人满意。今年四月，OpenAI推出了BrowseComp浏览器检索评测集，专门用于评估大型模型和智能体的检索性能。自评测集发布以来，这里面包含的1266个高难度问题被认为是当前最具挑战性的评测集之一，迄今为止尚无开源系统能够接近闭源模型的成绩。这为阿里通义的WebSailor创造了不小的挑战与机遇。

WebSailor智能体的核心挑战在于复杂场景下的信息检索任务，往往涉及到多个网页上散布的模糊线索。例如，“这首与南美某首都密切相关的乐曲，其歌词作者在21世纪初获得当地荣誉称号，旋律的创作者曾就读于哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么？”这种问题不仅要求AI主动从广阔的互联网中获取信息，还需要其具备过滤无关信息、进行多步推理和交叉验证的能力。只有这样，模型才能在嘈杂的信息环境中将所有线索有效串联起来。

阿里通义的实验室在构建数据集阶段进行了创新，开发了大量高不确定性的复合任务数据集SailorFog-QA。同时，他们还针对Qwen模型进行了冷启动微调，使其学习到了超越人类的复杂推理模式。团队还提出了一种名为DUPO的高效强化学习算法，该算法基于双阶段动态采样策略，大幅提高了训练效率。这种方法确保即使在需要频繁工具互动的复杂情境中，模型也能快速迭代和更新，相较于传统方法，DUPO将复杂智能体的强化学习训练速度提升了2到3倍，为高效的智能体训练提供了极大的便利。

WebSailor的评测结果显示，其在BrowseComp评测集上的表现令人瞩目。通过实测，WebSailor-32B和WebSailor-72B在开源模型和智能体领域取得了显著领先，甚至超越了不少闭源模型，如DeepSeek R1和Grok-3，仅在闭源的OpenAI DeepResearch之后。这一成绩不仅为开源社区树立了标杆，也为未来的发展注入了新的动力。

WebSailor在处理普通任务方面的表现同样不容小觑。在测试简单问答数据集SimpleQA时，WebSailor的表现也超越了其他竞争对手，展现出其良好的兼容性和有效性。这一结果验证了WebSailor方法的广泛适用性和优秀的泛化能力。

阿里通义团队的努力并不仅限于WebSailor。自今年以来，他们陆续推出了包括WebWalker、WebDancer在内的多款检索和推理智能体，并且所有这些智能体均获得了SOTA（State-of-the-Art）级别的优秀成绩，标志着阿里在网络智能体领域的持续进步与创新。

随着大模型和智能体技术的不断成熟，WebSailor的推出将为开源社区和人工智能研究带来新机遇。业界期待在未来，随着技术的进一步发展，阿里通义能够继续推动智能体领域的创新，开发出更多具备实用价值的智能产品，从而更好地服务于社会各个层面。