谷歌DeepMind推出首个可本地运行的视觉-语言-动作模型，提升机器人适应能力

时间：2025-06-26 07:40

小编：星品数码网

近日，谷歌DeepMind宣布其Gemini家族迎来了一个新的成员，该成员是首个可直接部署于机器人上的视觉-语言-动作(VLA)模型。这一新型模型不仅极大地提升了机器人在不同任务和环境中快速适应的能力，而且还可以在没有互联网连接的情况下独立运行，这对延迟敏感的应用场景尤为重要。

从名称上可以看出，该模型属于Gemini Robotics系列，基础模型依托于具有强大多模态推理能力的Gemini 2.0。DeepMind的研究团队表示，这一新模型展现出了出色的通用灵活性和任务泛化能力，经过优化后能在机器人硬件上高效运行。

值得一提的是，该模型的无网络运行特性使其在连接不畅或无网络环境中依然保持稳健表现，这为各种实际应用提供了保障。网友们对此表示积极评价，开发者的反响同样良好。DeepMind还将随之推出Gemini Robotics SDK，使开发者能够轻松评估模型在具体任务和环境中的表现，同时该SDK还支持在DeepMind的MuJoCo物理模拟器中进行测试与微调，快速适配新领域，仅需50到100个演示数据。

加州大学伯克利分校、谷歌DeepMind、多伦多大学与剑桥大学联合研发的MuJoCo Playground也在此次进展中取得了显著成果，获得了2023年的奖励，这表明了学术界与工业界的协同创新。

该模型专为双臂机器人设计，突出的特点在于其高效利用计算资源。其核心设计目标是最大限度地降低计算需求，同时保证任务泛化和灵活性。经过优化后，该模型支持本地低延迟推理，表现出色。在多项视觉、语言和行为泛化能力的实验中，模型的表现均十分优异。它能够理解并执行自然语言指令，完成拉开袋子拉链、折叠衣物等高度灵巧的操作，所有这些均可在机器人上独立完成。

通过对前沿模型的性能评估，不难发现，相较于之前的本地机器人模型，Gemini Robotics展现了显著的优势，尤其在复杂多步骤指令和挑战性任务的执行方面，效果明显优于其他本地方案。如果开发者不强求本地运行的选项，还可以选择Gemini Robotics模型进行不同的应用探索。

DeepMind推出的这一模型也是其首个可供微调的视觉-语言-动作模型。许多应用虽然可以开箱即用，开发者依然可以根据需求对模型进行调整以提升性能。这一模型比较高效，能够在短时间内适应新任务，表明它的基础知识具有较高的普适性。在七项不同难度的灵巧操作测试中，模型表现均优异，包括拉开午餐盒拉链、画卡片、倒沙拉酱等。

研究还表明，Gemini Robotics能够灵活适应不同的机器人。在初期的训练中，他们采用的是ALOHA机器人，但随后也发现该模型能够成功调整为双臂Franka FR3机器人和Apptronik的Apollo人形机器人。在双臂Franka机器人上，该模型可以执行一系列通用指令，包括处理未见物体和场景，完成如折叠连衣裙等灵巧任务，以及需要高精度的工业装配任务。而Apollo人形机器人则展现了该模型对不同机器人类型的出色适应能力，能够遵循自然语言指令和操控各种物体。

DeepMind在此次发布中表示，这一模型的推出标志着在构建强大的机器人技术以达到更快与更高效的适应能力方面迈出了重要一步。随着这一技术的发展，我们距离真正的具身智能时代又进一步接近。

除了推出新模型的喜讯，谷歌DeepMind在用户层面也带来了不小的“冲击”，他们宣布下调了Gemini系列的免费可用额度，这对于免费用户而言是个利空消息。首席产品经理Logan Kilpatrick解释称，调整是基于“随着新模型的发布，前一代模型的免费套餐将降低或取消”的战略。

谷歌还宣布在其AI Studio和Gemini API中加入了图像生成模型Imagen 4和Imagen 4 Ultra，目前用户已经可以在AI Studio中免费体验这些新功能。

谷歌DeepMind在视觉-语言-动作模型方面的持续努力表明其对机器人智能技术的重视与投资，预计未来该领域将会迎来更多创新与应用突破。

谷歌DeepMind推出首个可本地运行的视觉-语言-动作模型，提升机器人适应能力

精品推荐

相关文章