谷歌DeepMind推出新设备端AI模型，实现机器人自主控制无云支持

时间：2025-06-26 16:05

小编：星品数码网

随着人工智能技术的不断进步，机器人逐渐从科幻电影中的幻想走向现实应用。谷歌DeepMind近期推出了一款新的设备端视觉语言动作（VLA）模型，标志着机器人的自主控制能力进入了新的阶段。这款新模型在不依赖云支持的情况下运行，使得机器人得以在复杂环境中独立、自主地执行任务。这一创新不仅拓展了机器人的应用场景，也为开发者提供了灵活的调优选项。

机器人的自主控制：挑战与机遇

尽管传统强人工智能（AGI）有着明确的终极目标，但是在处理物理存在的机器人时，面临着一系列独特挑战。机器人不仅要在物理环境中进行操作，还必须具备适应性，以应对不断变化的条件。从简单的物体抓取到复杂的任务执行，如系鞋带或搭建积木，每一步都可能存在不确定性。过去，研究人员依赖强化学习等传统方法训练机器人，模型通常需要较长时间的调试和优化。近年来的生成式AI技术为机器人的训练带来了更高的效率和泛化能力。

谷歌DeepMind的机器人部门负责人Carolina Parada指出，新推出的VLA模型利用了Gemini的多模态理解能力，不仅能生成文本、编写代码和创建图像，还能生成机器人运动。这一突破使得AI在处理任务时能够更为灵活和自主。

设备端模型的优势

在早期的Gemini Robotics版本中，机器人依赖一个混合系统，其在本地运行的小型 AI 模型需要与云端的强大计算能力结合。尽管这种方法带来了更强的推理能力，但对于需要快速反应的物理机器人来说却显得力不从心。新的设备端VLA模型的推出，解决了这一问题。机器人在本地处理数据，从而在接收到指令后能够迅速反应，消除了依赖网络连接的延迟。

根据Parada的说法，新模型的性能与之前的混合版本相当，很多任务也可以直接使用。在与机器人互动的过程中，研究团队发现机器人在理解新情况方面表现出了令人惊讶的能力，这为机器人的实际应用打下了坚实的基础。

开放的开发者生态

谷歌DeepMind还发布了带有完整软件开发工具包（SDK）的模型，希望开发者能够进一步探索VLA的潜力。通过SDK，研究人员能够用简单的50到100次演示就使机器人适应新任务。这种方式与其他AI领域的“演示”概念略有不同，主要是通过远程操控机器人来调试模型，从而使其能自主完成任务。虽然生成合成数据是模型训练的一个方面，但Parada强调，真实数据对于精细复杂行为的训练依然不可或缺。

诸如系鞋带和折叠衬衫这样的动作，对于当前的设备端VLA模型应该没有问题。像制作三明治这样需要多步骤推理的任务，却可能超出这一模型的处理能力，因此可能需要更强大的支持。

隐私保护与安全考量

随着AI技术的进步，隐私与安全性始终是公众关注的重要议题。新模型在机器人处理视觉数据时，具备在本地运行的特性，这对于数据隐私至关重要，尤其是在医疗等敏感领域。同时，保证机器人操作安全也是一个不可忽视的问题。Gemini Robotics采用了多层安全保护措施。系统通过一个推理模型来判断何为安全行为，随后与VLA进行交互，调用低级控制器进行实际执行。

谷歌建议开发者在构建应用时，参考Gemini团队的经验，确保安全机制的健全，尤其是在早期测试阶段应连接到标准的Gemini Live API。

未来的展望

随着技术的不断发展，AI机器人技术的未来潜力无可限量。Carolina Parada表示，过去三年来，机器人技术已经取得了显著进展，但这仅仅是一个开始。当前发布的Gemini Robotics仍基于Gemini 2.0，而新一代的Gemini 2.5在聊天机器人功能方面已展现出显著的提升。未来，随着技术的不断更新迭代，机器人在各种领域的应用将变得更加广泛和高效。

谷歌DeepMind的新设备端AI模型的推出，标志着机器人自主能力的一次重要飞跃，让我们对于人工智能与机器人结合的未来充满期待。

谷歌DeepMind推出新设备端AI模型，实现机器人自主控制无云支持

精品推荐

相关文章