谷歌DeepMind发布VLA模型，推动生成式AI在实体机器人技术中的应用

时间：2025-06-26 06:55

小编：星品数码网

在当前的人工智能领域，虽然聊天机器人例如Gemini和ChatGPT在数字互动方面扮演着重要的角色，但生成式AI的应用正在悄然扩展到实体机器人技术之中。近日，谷歌DeepMind宣布推出其新款设备端VLA（视觉语言动作）模型，专为机器人控制而设计，它能够实现完全的本地自主运行，无需依赖云端的计算能力。这一创新性里程碑将为机器人技术的未来发展带来深远影响。

据谷歌DeepMind机器人部门的主管Carolina Parada介绍，这款新型AI机器人技术将显著提升机器人在复杂环境中的可靠性，使其能够更好地应对各种挑战。Parada指出，这是谷歌首个面向开发者进行调优的机器人模型版本，标志着谷歌在机器人智能自主控制上的重要进展。她强调，机器人不仅仅是物理实体，它们还需要与周围环境进行有效互动，这给AI系统的设计带来了独特的挑战。

传统的强化学习方法在训练机器人进行动作时，往往效率较低，受限于数据的反复性与模型的复杂性。而相较之下，生成式AI展现了更强的泛化能力，可以更好地适应新的情境与任务。VLA模型的设计充分利用了Gemini的多模态理解能力，因此其不仅能进行文本生成、诗歌创作、文章等任务，还能编写代码、生成图像，最为重要的是，它能够生成机器人的动作指令，这使得机器人可以更灵活地完成各类实时任务。Parada形容Gemini的多功能性，称其为“全能助手”。

与此前依赖云端支持的Gemini Robotics版本相比，新发布的设备端模型在性能上仅略有不足，但在实际应用场景中，其能力已经足够强大，许多任务无需调整便可直接使用。开发者们在与这些机器人互动后发现，它们在理解新环境和情境方面展现出令人惊叹的能力。为了鼓励开发者进一步探索这一技术，谷歌还提供了完整的软件开发工具包（SDK），使研究人员通过50至100次演示便可以让VLA模型适应新任务。

在AI机器人技术的背景下，“演示”这一概念的引入是至关重要的，它是通过远程操作机器人来完成特定的任务，从而调优模型的过程。虽然合成数据在训练机器人时占据重要地位，但获取真实数据对于实现复杂及精细的行为同样不可或缺。Parada具体指出：“对于最精细的动作，我们仍然需要真实数据。”同时，仿真技术在这一过程中也发挥了重要作用，为模型提供了丰富的训练场景。

虽然VLA模型在处理简单动作，例如系鞋带或折叠衣物时表现出色，但在处理更为复杂的多步骤任务，例如制作三明治时，它可能会面临挑战，因此需要更为强大的模型支持。针对云连接不稳定或有隐私保护需求的环境，例如医疗设施，这款新型设备端模型显得尤为合适。

安全性依然是AI系统，特别是实体机器人设计中的一大重大关注点。谷歌在确保Gemini Robotics的行为安全方面，采用了多层次的安全机制。Parada解释称，系统通过Gemini Robotics连接到能够进行安全行为推理的模型，然后与能生成动作选择的VLA进行对话，最终由低级控制器来执行这些动作。这些控制器通常包含强制性安全组件，例如力量限制和速度控制，确保机器人在操作中的安全性。

尽管新的设备端VLA模型本身并不包含完整的安全机制，谷歌鼓励开发者遵循Gemini团队的做法，将其系统连接到包含安全层的Gemini Live API，并在机器人操作中实施低级控制器以进行关键性安全检查。对此有兴趣的开发者可以申请加入谷歌的可信测试计划，以便更好地评估和测试Gemini Robotics的新设备端版本。

回顾过去三年，机器人技术领域的发展可谓显著。同时此次发布的Gemini Robotics只不过是基于Gemini 2.0的一个版本。Parada透露，Gemini Robotics团队的开发进度通常会落后于Gemini的整体发展进程。目前Gemini 2.5已经在聊天机器人方面实现了显著的升级，未来的机器人技术令人期待，也将迎来类似革命性的飞跃。

谷歌DeepMind的VLA模型不仅标志着生成式AI在实体机器人技术中的重要一步，更为机器人与人类的互动和应用开辟了更广阔的前景。这一创新将为各类行业带来全新的自动化可能性，推动技术的迅速演进。

谷歌DeepMind发布VLA模型，推动生成式AI在实体机器人技术中的应用

精品推荐

相关文章