香港大学等机构推出开源CUA框架助力自主电脑Agent开发

时间：2025-08-20 13:00

小编：星品数码网

8月14日，来自香港大学XLANG实验室、月之暗面及其他多家科研机构的研究团队于arXiv网站上发布了一篇开创性的论文，提出了一种开源的计算机使用Agent（CUA）框架。这一新框架的推出旨在为用户提供更高效和低门槛的自主电脑Agent开发工具，推进各类智能化应用的快速实现。

项目由香港大学计算机科学系的助理教授余涛（Tao Yu）主导，并吸引了来自月之暗面、斯坦福大学、滑铁卢大学与卡内基梅隆大学等多个知名机构的研究人员参与。这项研究的目标是克服当前CUA系统存在的闭源运行局限性，以便更好地探索其在辅助用户决策过程中的能力、局限性以及潜在风险。

完全开源的CUA框架为研究人员提供了一种崭新的工具，旨在通过研究和开发丰富自主操作电脑的Agent能力，从而提升其在各种计算机应用中的表现。此框架不仅包含丰富的文档与资料，还涵盖了多种技术工具和数据集，使得用户能够便捷地上手进行开发。

论文中提到的CUA框架基于最新的机器学习模型，如Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和Qwen2.5-VL-32B。在研究过程中，开发团队对这些模型进行监督微调（SFT），最终形成了多个高效且表现优秀的模型变体，比如-A3B、-Qwen2-7B、-7B和-2.5-32B。其中，旗舰模型-32B在CUA基准测试OSWorld-Verified中脱颖而出，达到了新的开源模型最高水平（SOTA），在多项任务表现上甚至优于一些闭源模型。

该框架的官网提供了多种资源，包括工具、模型和数据集，用户可以访问相关链接（https://opencua.xlang.ai）进行探索。研究人员在项目主页上还展示了计算机执行任务的详细轨迹，包括如何在VScode中安装扩展、查询曼彻斯特的天气预报、制作PPT等。

在基准测试方面，探讨中的模型在OSWorld-Verify中的表现超越了OpenAI、Claude等诸多模型，尤其是在特定任务上取得了显著优势。同时，研究团队还建立了Agent评估基准AgentNetBench，评估包含100个任务，这些任务覆盖Windows和macOS，并涉及多个领域。每项任务均经过团队的严格审查，以确保目标的精确性和有效性。

在具体实现上，CUA框架展示了有效收集高质量计算机使用数据的方法，以便形成具有代表性的数据集。由于现有工具在非技术用户的任务记录上存在限制，研究团队开发了一种名为AgentNet Tool的工具，该工具能够简化计算机使用演示的收集流程，确保记录的真实性并提高数据的质量。

该工具支持在Windows、macOS和Ubuntu三大操作系统下采集用户交互，能够记录屏幕视频、鼠标和键盘事件，以及相关的元数据，为获取真实世界的用户操作提供了有力支持。收集到的用户演示经过处理和整理，生成了一系列状态-动作轨迹。这些轨迹包括用户的内心独白及行动历史，适用于视觉语言模型的训练。

整合后的数据集包含了22500个手工标注的计算机使用任务，覆盖140多个应用程序和190个网站，涵盖了多应用程序工作流程、专业工具以及一些不常用功能。与以往的GUI数据集相比，AgentNet被认为是一个真实、复杂且多样化的桌面轨迹级数据集。

对于所开发的框架而言，它可以处理复杂的思维链推理、多图像历史和混合域数据等，以支持跨操作系统的真实桌面环境下的任务执行。有趣的是，-7B模型在测试中也展现了超强的扩展性，表明其在代码生成、程序合成和推理任务中的高效性，使得性能评估变得更为科学。

本次开源CUA框架的发布为自主电脑Agent的开发铺平了道路。随着数据采集成本的降低及跨数据集的建立，CUA框架将为未来多种工具的调用、用户需求的理解以及高效的任务执行提供新机遇。此举不仅响应了当前科技发展的需求，也为未来Computational User Agent的规模化应用打下坚实基础。用户和开发者们期待通过这一框架，能将自主操作电脑的技术应用于更广泛的领域，推动人机交互的进一步发展与创新。

欲了解更多信息，请访问论文链接：https://arxiv.org/pdf/2508.09123。