谷歌DeepMind发布VLA模型,推动生成式AI在实体机器人技术中的应用
时间:2025-06-26 06:55
小编:小世评选
在当前的人工智能领域,虽然聊天机器人例如Gemini和ChatGPT在数字互动方面扮演着重要的角色,但生成式AI的应用正在悄然扩展到实体机器人技术之中。近日,谷歌DeepMind宣布推出其新款设备端VLA(视觉语言动作)模型,专为机器人控制而设计,它能够实现完全的本地自主运行,无需依赖云端的计算能力。这一创新性里程碑将为机器人技术的未来发展带来深远影响。
据谷歌DeepMind机器人部门的主管Carolina Parada介绍,这款新型AI机器人技术将显著提升机器人在复杂环境中的可靠性,使其能够更好地应对各种挑战。Parada指出,这是谷歌首个面向开发者进行调优的机器人模型版本,标志着谷歌在机器人智能自主控制上的重要进展。她强调,机器人不仅仅是物理实体,它们还需要与周围环境进行有效互动,这给AI系统的设计带来了独特的挑战。
传统的强化学习方法在训练机器人进行动作时,往往效率较低,受限于数据的反复性与模型的复杂性。而相较之下,生成式AI展现了更强的泛化能力,可以更好地适应新的情境与任务。VLA模型的设计充分利用了Gemini的多模态理解能力,因此其不仅能进行文本生成、诗歌创作、文章等任务,还能编写代码、生成图像,最为重要的是,它能够生成机器人的动作指令,这使得机器人可以更灵活地完成各类实时任务。Parada形容Gemini的多功能性,称其为“全能助手”。
与此前依赖云端支持的Gemini Robotics版本相比,新发布的设备端模型在性能上仅略有不足,但在实际应用场景中,其能力已经足够强大,许多任务无需调整便可直接使用。开发者们在与这些机器人互动后发现,它们在理解新环境和情境方面展现出令人惊叹的能力。为了鼓励开发者进一步探索这一技术,谷歌还提供了完整的软件开发工具包(SDK),使研究人员通过50至100次演示便可以让VLA模型适应新任务。
在AI机器人技术的背景下,“演示”这一概念的引入是至关重要的,它是通过远程操作机器人来完成特定的任务,从而调优模型的过程。虽然合成数据在训练机器人时占据重要地位,但获取真实数据对于实现复杂及精细的行为同样不可或缺。Parada具体指出:“对于最精细的动作,我们仍然需要真实数据。”同时,仿真技术在这一过程中也发挥了重要作用,为模型提供了丰富的训练场景。
虽然VLA模型在处理简单动作,例如系鞋带或折叠衣物时表现出色,但在处理更为复杂的多步骤任务,例如制作三明治时,它可能会面临挑战,因此需要更为强大的模型支持。针对云连接不稳定或有隐私保护需求的环境,例如医疗设施,这款新型设备端模型显得尤为合适。
安全性依然是AI系统,特别是实体机器人设计中的一大重大关注点。谷歌在确保Gemini Robotics的行为安全方面,采用了多层次的安全机制。Parada解释称,系统通过Gemini Robotics连接到能够进行安全行为推理的模型,然后与能生成动作选择的VLA进行对话,最终由低级控制器来执行这些动作。这些控制器通常包含强制性安全组件,例如力量限制和速度控制,确保机器人在操作中的安全性。
尽管新的设备端VLA模型本身并不包含完整的安全机制,谷歌鼓励开发者遵循Gemini团队的做法,将其系统连接到包含安全层的Gemini Live API,并在机器人操作中实施低级控制器以进行关键性安全检查。对此有兴趣的开发者可以申请加入谷歌的可信测试计划,以便更好地评估和测试Gemini Robotics的新设备端版本。
回顾过去三年,机器人技术领域的发展可谓显著。同时此次发布的Gemini Robotics只不过是基于Gemini 2.0的一个版本。Parada透露,Gemini Robotics团队的开发进度通常会落后于Gemini的整体发展进程。目前Gemini 2.5已经在聊天机器人方面实现了显著的升级,未来的机器人技术令人期待,也将迎来类似革命性的飞跃。
谷歌DeepMind的VLA模型不仅标志着生成式AI在实体机器人技术中的重要一步,更为机器人与人类的互动和应用开辟了更广阔的前景。这一创新将为各类行业带来全新的自动化可能性,推动技术的迅速演进。