苹果研究新论文：开发AI理解操作后果以确保用户安全

时间：2025-06-28 19:05

小编：星品数码网

在人工智能技术迅速发展的今天，越来越多的智能应用开始在我们的生活中扮演不可或缺的角色。随着AI智能体的智能化程度提升，它们能更主动地协助用户进行日常任务，比如修改设置、开启导航等。尽管AI的表现日益出色，它们其实并不掌握用户界面（UI）操作背后的复杂机制，只是按照既定程序进行执行。这一现状引发了广泛关注，尤其是当AI的行为可能导致潜在风险时。因此，苹果公司与华盛顿大学的研究团队正在共同探索如何让AI更好地识别和判断其操作所产生的后果，以确保用户安全。

在即将到来的2026年，苹果计划将AI智能体的自主行为作为其系统升级的重要功能之一。在2024年的全球开发者大会（WWDC）上，苹果展示了Siri未来的发展方向，包括代为用户进行在线购物和订票等任务。这种自动化的便利性同时伴随着严重的风险，例如AI误点“删除账户”而非“注销”所引发的后果。这不仅涉及到用户的账户安全，也影响到个人的隐私保护。

在生活中，我们的手机储存着各种类型的敏感数据，包括银行账户信息、医疗记录、私人照片等。因此，当AI智能体执行操作时，必须清楚哪些操作是安全的，哪些操作可能导致持久的负面后果，何时需要向用户请求确认。这是当前许多AI开发者所忽视的问题。大多数开发者只致力于提升AI的操作能力，例如识别按钮和页面，往往缺乏对操作后果的深入思考和剖析。

苹果的研究团队指出，不同的动作在安全性上存在显著的差异。例如，点击“刷新”按钮虽然几乎没有风险，但点击“转账”则是高风险行为。为了更好地理解这种风险，研究团队通过召开研讨会，汇聚了AI安全和用户界面设计的专家，着手创建一套“分类法”，以便定义不同UI动作的影响类别。研究围绕以下几个关键问题展开：

1. 动作是否能被撤销？

2. 该操作的影响是不是仅限于机主个人，还是可能影响到他人？

3. 这个操作是否会改变隐私设置或产生费用？

研究人员通过对手机应用的多维度标注，建立了一种方法来识别动作为AI提供的“风险检查”程序。这使得AI能够更好地判断“哪些动作可能出错”以及“何时需要额外确认”。例如，删除消息的操作在两分钟内通常可以撤销，但如果时间超过，将会变得不可恢复，而转账事件则往往需要更多步骤才能被撤销。

为训练AI有效地区分各种风险操作，研究团队让参与者在模拟移动环境中记录高风险的动作。这些动作包括修改账户密码、发送敏感消息、更新支付信息等，而非一些较低风险的操作如浏览网页和搜索信息。团队将收集到的新数据与已有的常规交互和安全数据集相结合，使用分类法标注所有数据，随后对多种AI模型进行测试，其中包括OpenAI的GPT-4以及其他四个主流模型，评估它们在识别动作为高风险或低风险的适应能力。

研究结果表明，加上分类法提示的信息能够显著提高AI在风险判断方面的表现，但即使表现最优的“GPT-4多模态”模型，其正确率也仅约58%。该研究还发现，AI模型常常倾向于高估某些操作的风险。例如，将“清除空的计算器历史记录”标记为高风险，这种“谨慎偏见”虽然表面上更安全，实际上却可能导致频繁的确认请求，最终使AI助手变得乏味且无用。更为严重的是，模型难以明确判断某一操作是否可撤销或者会对他人产生怎样的影响。

苹果的研究人员认为，用户真正所需的是一种“有用且安全”的自动化功能。毕竟，误删除账户的严重性不言而喻，而如果连简单的音量调整都需要用户确认，用户体验将大打折扣。研究团队提出，他们所开发的分类法可以协助设计出更完善的AI政策，使得用户能够自定义何时需要AI请求确认。这种方法在保障用户安全的同时，也促进了透明度和个性化。

这项研究的意义在于强调了AI在执行操作时需关注的风险和责任。不仅仅是“会操作”（如能够识别按钮位置），更关键的是，AI还需理解“点击背后的意义”。人类通过上下文和历史经验来进行判断，而对于AI这是一个复杂且艰巨的任务。随着技术的发展，我们期待AI能在人性化与安全性之间找到更好的平衡，实现更理想的用户体验。

苹果研究新论文：开发AI理解操作后果以确保用户安全

精品推荐

相关文章