港大与camel-ai联合推出Workforce框架，刷新AI助手基准测试纪录

时间：2025-06-18 01:15

小编：星品数码网

近日，香港大学与Camel-AI等多家机构联合提出了一种全新的多智能体框架——Workforce，以及其配套的高效训练方法OWL（Optimized Workforce Learning）。在通用AI助手的标杆基准测试GAIA上，Workforce框架取得了令人瞩目的69.70%的准确率，不仅刷新了开源系统的最佳纪录，还超越了多家商业体系及OpenAI Deep Research的相关方案。这一成果在学术界和工业界引发了广泛关注，其相关代码已在GitHub上开源，并已获得了超过17,000个点赞。

揭示Workforce框架的创新设计

随着大规模语言模型（LLM）的迅速发展，现有的单一智能体在应对复杂现实任务时显现出明显的局限性。这促使研究人员探索多智能体系统（MAS），旨在通过不同专业化的智能体之间的协作，来提升整体性能。目前的多智能体系统普遍存在跨领域迁移能力不足的问题。例如，很多系统都是针对特定领域深度定制的，这导致了在推理和训练上都面临着不小的挑战。研究团队针对这些问题提出了“解耦设计”理念，以提升系统的灵活性和扩展性。

Workforce框架将整个系统分解为三大核心组件：

1. 规划器（Planner Agent）：作为系统的“大脑”，负责分析输入任务并将其分解成多个子任务，基于高层目标生成任务分解策略。其设计旨在与具体应用领域无关。

2. 协调器（Coordinator Agent）：充当中央协调机制，负责有效地分配子任务，并管理任务间的依赖关系。

3. 工作节点（Worker Nodes）：由多个专门化智能体组成，具备特定能力并负责执行分配的子任务。这些工作节点可以根据需求灵活替换，无需对核心规划机制进行改动。

Workforce框架的模块化架构最大特点在于其“稳定核心、可变外围”的设计哲学。这样的架构使得在需要适应新领域时，只需更换或添加相应的工作节点，从而降低了系统迁移的复杂度和成本。

OWL训练方法的创新

在Workforce框架的基础上，研究团队提出了OWL训练方法，其重点在于优化核心规划器的能力，而非对整个系统进行全量训练。OWL采用了两阶段的训练策略。

第一阶段：监督微调（SFT）。利用专家演示数据对规划器进行初始化训练，使其掌握基础的任务分解技能。研究团队构建了一个包含1599个高质量轨迹的训练数据集，涵盖在线信息搜索、推理及多模态处理等多个维度。

第二阶段：强化学习优化。使用直接偏好优化（DPO）算法，提升规划器的决策质量，使其具备更复杂的决策能力。从而确保其能够有效处理各种复杂的实际任务。

GAIA基准测试下的卓越表现

研究团队在GAIA标准基准测试中进行了全面的实验验证。GAIA是当前评估通用AI助手的权威测试，组织结构要求系统具备多模态理解、网络搜索、代码执行和复杂推理等多项综合能力。实验结果显示，Workforce框架在GAIA的validation集上达到69.70%的准确率，领先于以往的开源系统及商用产品（如OpenAI Deep Research的67.36%）。

OWL训练方法的成功应用同样引人注目，将Qwen2.5-32B-Instruct模型在GAIA测试中的表现从36.36%提升至52.73%，显著高于未训练的72B模型（49.09%），在Level 3任务上达到了与GPT-4o相当的水平（26.92%）。深入的分析还揭示了Workforce框架在多个能力维度中的稳定表现，确保在不同能力需求下的性能持平，显著优于单一智能体方法。

应用前景及挑战

虽然Workforce框架在理论和实验上均展现了卓越的能力，但在实际应用中，研究团队也针对真实环境下所面临的挑战进行了分析。其中包括信息源差异、信息时效性、语言歧义性及网络环境限制等问题，这些都需要系统具备更高的适应能力和智能推理能力。

Workforce的成功不仅为真正通用的人工智能系统铺平了道路，还带来了在架构、训练和应用层面的诸多优势：在架构层面上实现了高度的模块化设计，保证了核心能力的稳定性；在训练层面上通过核心组件的高效优化显著提高了训练效率；在应用层面则为实际应用提供了灵活、高效、可扩展的解决方案。

香港大学与Camel-AI的这一创新性突破，极大地推动了多智能体系统及通用AI助手的研究及应用进程，为未来的发展奠定了坚实的基础。

港大与camel-ai联合推出Workforce框架，刷新AI助手基准测试纪录

精品推荐

相关文章