港大与camel-ai联合推出Workforce框架,刷新AI助手基准测试纪录
时间:2025-06-18 01:15
小编:小世评选
近日,香港大学与Camel-AI等多家机构联合提出了一种全新的多智能体框架——Workforce,以及其配套的高效训练方法OWL(Optimized Workforce Learning)。在通用AI助手的标杆基准测试GAIA上,Workforce框架取得了令人瞩目的69.70%的准确率,不仅刷新了开源系统的最佳纪录,还超越了多家商业体系及OpenAI Deep Research的相关方案。这一成果在学术界和工业界引发了广泛关注,其相关代码已在GitHub上开源,并已获得了超过17,000个点赞。
揭示Workforce框架的创新设计
随着大规模语言模型(LLM)的迅速发展,现有的单一智能体在应对复杂现实任务时显现出明显的局限性。这促使研究人员探索多智能体系统(MAS),旨在通过不同专业化的智能体之间的协作,来提升整体性能。目前的多智能体系统普遍存在跨领域迁移能力不足的问题。例如,很多系统都是针对特定领域深度定制的,这导致了在推理和训练上都面临着不小的挑战。研究团队针对这些问题提出了“解耦设计”理念,以提升系统的灵活性和扩展性。
Workforce框架将整个系统分解为三大核心组件:
1. 规划器(Planner Agent):作为系统的“大脑”,负责分析输入任务并将其分解成多个子任务,基于高层目标生成任务分解策略。其设计旨在与具体应用领域无关。
2. 协调器(Coordinator Agent):充当中央协调机制,负责有效地分配子任务,并管理任务间的依赖关系。
3. 工作节点(Worker Nodes):由多个专门化智能体组成,具备特定能力并负责执行分配的子任务。这些工作节点可以根据需求灵活替换,无需对核心规划机制进行改动。
Workforce框架的模块化架构最大特点在于其“稳定核心、可变外围”的设计哲学。这样的架构使得在需要适应新领域时,只需更换或添加相应的工作节点,从而降低了系统迁移的复杂度和成本。
OWL训练方法的创新
在Workforce框架的基础上,研究团队提出了OWL训练方法,其重点在于优化核心规划器的能力,而非对整个系统进行全量训练。OWL采用了两阶段的训练策略。
第一阶段:监督微调(SFT)。利用专家演示数据对规划器进行初始化训练,使其掌握基础的任务分解技能。研究团队构建了一个包含1599个高质量轨迹的训练数据集,涵盖在线信息搜索、推理及多模态处理等多个维度。
第二阶段:强化学习优化。使用直接偏好优化(DPO)算法,提升规划器的决策质量,使其具备更复杂的决策能力。从而确保其能够有效处理各种复杂的实际任务。
GAIA基准测试下的卓越表现
研究团队在GAIA标准基准测试中进行了全面的实验验证。GAIA是当前评估通用AI助手的权威测试,组织结构要求系统具备多模态理解、网络搜索、代码执行和复杂推理等多项综合能力。实验结果显示,Workforce框架在GAIA的validation集上达到69.70%的准确率,领先于以往的开源系统及商用产品(如OpenAI Deep Research的67.36%)。
OWL训练方法的成功应用同样引人注目,将Qwen2.5-32B-Instruct模型在GAIA测试中的表现从36.36%提升至52.73%,显著高于未训练的72B模型(49.09%),在Level 3任务上达到了与GPT-4o相当的水平(26.92%)。深入的分析还揭示了Workforce框架在多个能力维度中的稳定表现,确保在不同能力需求下的性能持平,显著优于单一智能体方法。
应用前景及挑战
虽然Workforce框架在理论和实验上均展现了卓越的能力,但在实际应用中,研究团队也针对真实环境下所面临的挑战进行了分析。其中包括信息源差异、信息时效性、语言歧义性及网络环境限制等问题,这些都需要系统具备更高的适应能力和智能推理能力。
Workforce的成功不仅为真正通用的人工智能系统铺平了道路,还带来了在架构、训练和应用层面的诸多优势:在架构层面上实现了高度的模块化设计,保证了核心能力的稳定性;在训练层面上通过核心组件的高效优化显著提高了训练效率;在应用层面则为实际应用提供了灵活、高效、可扩展的解决方案。
香港大学与Camel-AI的这一创新性突破,极大地推动了多智能体系统及通用AI助手的研究及应用进程,为未来的发展奠定了坚实的基础。