谷歌DeepMind推出新设备端AI模型,实现机器人自主控制无云支持
时间:2025-06-26 16:05
小编:小世评选
随着人工智能技术的不断进步,机器人逐渐从科幻电影中的幻想走向现实应用。谷歌DeepMind近期推出了一款新的设备端视觉语言动作(VLA)模型,标志着机器人的自主控制能力进入了新的阶段。这款新模型在不依赖云支持的情况下运行,使得机器人得以在复杂环境中独立、自主地执行任务。这一创新不仅拓展了机器人的应用场景,也为开发者提供了灵活的调优选项。
机器人的自主控制:挑战与机遇
尽管传统强人工智能(AGI)有着明确的终极目标,但是在处理物理存在的机器人时,面临着一系列独特挑战。机器人不仅要在物理环境中进行操作,还必须具备适应性,以应对不断变化的条件。从简单的物体抓取到复杂的任务执行,如系鞋带或搭建积木,每一步都可能存在不确定性。过去,研究人员依赖强化学习等传统方法训练机器人,模型通常需要较长时间的调试和优化。近年来的生成式AI技术为机器人的训练带来了更高的效率和泛化能力。
谷歌DeepMind的机器人部门负责人Carolina Parada指出,新推出的VLA模型利用了Gemini的多模态理解能力,不仅能生成文本、编写代码和创建图像,还能生成机器人运动。这一突破使得AI在处理任务时能够更为灵活和自主。
设备端模型的优势
在早期的Gemini Robotics版本中,机器人依赖一个混合系统,其在本地运行的小型 AI 模型需要与云端的强大计算能力结合。尽管这种方法带来了更强的推理能力,但对于需要快速反应的物理机器人来说却显得力不从心。新的设备端VLA模型的推出,解决了这一问题。机器人在本地处理数据,从而在接收到指令后能够迅速反应,消除了依赖网络连接的延迟。
根据Parada的说法,新模型的性能与之前的混合版本相当,很多任务也可以直接使用。在与机器人互动的过程中,研究团队发现机器人在理解新情况方面表现出了令人惊讶的能力,这为机器人的实际应用打下了坚实的基础。
开放的开发者生态
谷歌DeepMind还发布了带有完整软件开发工具包(SDK)的模型,希望开发者能够进一步探索VLA的潜力。通过SDK,研究人员能够用简单的50到100次演示就使机器人适应新任务。这种方式与其他AI领域的“演示”概念略有不同,主要是通过远程操控机器人来调试模型,从而使其能自主完成任务。虽然生成合成数据是模型训练的一个方面,但Parada强调,真实数据对于精细复杂行为的训练依然不可或缺。
诸如系鞋带和折叠衬衫这样的动作,对于当前的设备端VLA模型应该没有问题。像制作三明治这样需要多步骤推理的任务,却可能超出这一模型的处理能力,因此可能需要更强大的支持。
隐私保护与安全考量
随着AI技术的进步,隐私与安全性始终是公众关注的重要议题。新模型在机器人处理视觉数据时,具备在本地运行的特性,这对于数据隐私至关重要,尤其是在医疗等敏感领域。同时,保证机器人操作安全也是一个不可忽视的问题。Gemini Robotics采用了多层安全保护措施。系统通过一个推理模型来判断何为安全行为,随后与VLA进行交互,调用低级控制器进行实际执行。
谷歌建议开发者在构建应用时,参考Gemini团队的经验,确保安全机制的健全,尤其是在早期测试阶段应连接到标准的Gemini Live API。
未来的展望
随着技术的不断发展,AI机器人技术的未来潜力无可限量。Carolina Parada表示,过去三年来,机器人技术已经取得了显著进展,但这仅仅是一个开始。当前发布的Gemini Robotics仍基于Gemini 2.0,而新一代的Gemini 2.5在聊天机器人功能方面已展现出显著的提升。未来,随着技术的不断更新迭代,机器人在各种领域的应用将变得更加广泛和高效。
谷歌DeepMind的新设备端AI模型的推出,标志着机器人自主能力的一次重要飞跃,让我们对于人工智能与机器人结合的未来充满期待。