香港大学等机构推出开源CUA框架 助力自主电脑Agent开发
时间:2025-08-20 13:00
小编:星品数码网
8月14日,来自香港大学XLANG实验室、月之暗面及其他多家科研机构的研究团队于arXiv网站上发布了一篇开创性的论文,提出了一种开源的计算机使用Agent(CUA)框架。这一新框架的推出旨在为用户提供更高效和低门槛的自主电脑Agent开发工具,推进各类智能化应用的快速实现。

项目由香港大学计算机科学系的助理教授余涛(Tao Yu)主导,并吸引了来自月之暗面、斯坦福大学、滑铁卢大学与卡内基梅隆大学等多个知名机构的研究人员参与。这项研究的目标是克服当前CUA系统存在的闭源运行局限性,以便更好地探索其在辅助用户决策过程中的能力、局限性以及潜在风险。
完全开源的CUA框架为研究人员提供了一种崭新的工具,旨在通过研究和开发丰富自主操作电脑的Agent能力,从而提升其在各种计算机应用中的表现。此框架不仅包含丰富的文档与资料,还涵盖了多种技术工具和数据集,使得用户能够便捷地上手进行开发。
论文中提到的CUA框架基于最新的机器学习模型,如Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和Qwen2.5-VL-32B。在研究过程中,开发团队对这些模型进行监督微调(SFT),最终形成了多个高效且表现优秀的模型变体,比如-A3B、-Qwen2-7B、-7B和-2.5-32B。其中,旗舰模型-32B在CUA基准测试OSWorld-Verified中脱颖而出,达到了新的开源模型最高水平(SOTA),在多项任务表现上甚至优于一些闭源模型。
该框架的官网提供了多种资源,包括工具、模型和数据集,用户可以访问相关链接(https://opencua.xlang.ai)进行探索。研究人员在项目主页上还展示了计算机执行任务的详细轨迹,包括如何在VScode中安装扩展、查询曼彻斯特的天气预报、制作PPT等。
在基准测试方面,探讨中的模型在OSWorld-Verify中的表现超越了OpenAI、Claude等诸多模型,尤其是在特定任务上取得了显著优势。同时,研究团队还建立了Agent评估基准AgentNetBench,评估包含100个任务,这些任务覆盖Windows和macOS,并涉及多个领域。每项任务均经过团队的严格审查,以确保目标的精确性和有效性。
在具体实现上,CUA框架展示了有效收集高质量计算机使用数据的方法,以便形成具有代表性的数据集。由于现有工具在非技术用户的任务记录上存在限制,研究团队开发了一种名为AgentNet Tool的工具,该工具能够简化计算机使用演示的收集流程,确保记录的真实性并提高数据的质量。
该工具支持在Windows、macOS和Ubuntu三大操作系统下采集用户交互,能够记录屏幕视频、鼠标和键盘事件,以及相关的元数据,为获取真实世界的用户操作提供了有力支持。收集到的用户演示经过处理和整理,生成了一系列状态-动作轨迹。这些轨迹包括用户的内心独白及行动历史,适用于视觉语言模型的训练。
整合后的数据集包含了22500个手工标注的计算机使用任务,覆盖140多个应用程序和190个网站,涵盖了多应用程序工作流程、专业工具以及一些不常用功能。与以往的GUI数据集相比,AgentNet被认为是一个真实、复杂且多样化的桌面轨迹级数据集。
对于所开发的框架而言,它可以处理复杂的思维链推理、多图像历史和混合域数据等,以支持跨操作系统的真实桌面环境下的任务执行。有趣的是,-7B模型在测试中也展现了超强的扩展性,表明其在代码生成、程序合成和推理任务中的高效性,使得性能评估变得更为科学。
本次开源CUA框架的发布为自主电脑Agent的开发铺平了道路。随着数据采集成本的降低及跨数据集的建立,CUA框架将为未来多种工具的调用、用户需求的理解以及高效的任务执行提供新机遇。此举不仅响应了当前科技发展的需求,也为未来Computational User Agent的规模化应用打下坚实基础。用户和开发者们期待通过这一框架,能将自主操作电脑的技术应用于更广泛的领域,推动人机交互的进一步发展与创新。
欲了解更多信息,请访问论文链接:https://arxiv.org/pdf/2508.09123。

