谷歌推出Gemini Robotics On-Device模型，引领具身智能革命

时间：2025-07-03 17:30

小编：星品数码网

在近年来的科技发展中，具身智能（Embodied Intelligence）逐渐成为一个热门话题，其核心在于将人工智能与物理世界的交互融合，以实现更为自然和高效的人机协作。近年来，视觉-语言-动作（VLA）模型的出现，为这一领域注入了新活力。近日，谷歌正式发布了Gemini Robotics On-Device模型，这是一个专为机器人端侧设计的VLA模型，能够在设备本地离线运行，无需依赖任何网络连接，从而标志着机器人技术的又一次重大飞跃。

Gemini Robotics On-Device模型展示了卓越的视觉识别、语言理解和行动执行能力，使机器人得以在复杂的现实环境中独立工作。该模型的出现解决了以往机器人在处理复杂指令时的种种困难，使得它们能够理解自然语言并顺利执行高难度任务，如拉开拉链、折叠衣物等。这一突破性技术显著提升了机器人对于复杂环境的适应能力，为其广泛应用于家庭、工业以及灾后救援等多种场景打下了坚实的基础。

作为具身智能的新范式，VLA模型为机器人提供了一个全新的工作方式，它将语言指令、视觉输入与物理动作紧密结合。在2023年，谷歌推出的Gemini Robotics系列模型引起了广泛关注，微软、Figure AI等国际科技公司也纷纷加大对这一技术的投入。同时，国内的机器人公司如银河通用、智元机器人、自变量机器人等亦在积极布局，推动VLA模型的发展，形成了一个竞争与合作并存的局面。

谷歌DeepMind团队推出的Gemini Robotics是这个新的技术中的佼佼者。其基于Gemini 2.0构建的模型如同机器人的“大脑”，能够高效理解复杂的环境并完成诸如折纸、拉拉链等精细任务。在使用双臂机器人进行演示时，Gemini Robotics展示了极高的灵活性和响应速度，令在场的观众对其能力刮目相看。

而Gemini Robotics On-Device的发布，标志着具身智能技术的一个重大转变。从依赖云端计算能力，转向能够在本地自主运行，意味着机器人在没有网络的环境中能够独立完成工作。这对于机器人在工业生产、灾区救援等特定场景中的应用，具有重大现实意义。

Gemini Robotics On-Device具备多项优越特性，其中包括专为灵巧操作设计、能够通过微调适应新任务以及经过优化后在本地实现超低延迟推理。这使得其在执行日常任务时更为高效且准确。谷歌还推出了Gemini Robotics SDK，为开发者提供了评估模型性能的工具，加快了新的技能学习过程。仅需50至100个演示，开发者便可完成对机器人模型的性能评估，大幅度降低了机器人学习新技能的门槛，推动了机器人技术的普及。

随着VLA模型的快速发展，中国的机器人企业也在不断跟进，积极推出相应的技术。银河通用近期推出了TrackVLA和GroceryVLA两款端到端VLA大模型，前者聚焦于物体追踪，而后者则在商业场景中展现了出色的能力。搭载GroceryVLA的Galbot机器人，在商超环境中能够准确理解顾客指令，为其挑选食物并送到手中，展示出了出色的零样本泛化能力。

智元机器人则推出了首个通用具身基座模型——智元启元大模型（GO-1）。此模型采用了Vision-Language-Latent-Action架构，该架构能够通过人类视频学习实现小样本快速泛化，完美适应多变环境。GO-1已成功部署在智元多款机器人中，显著提升了其智能化水平。

自变量机器人也在这一领域不断创新，推出了端到端统一具身大模型WALL-A。该模型有效突破了传统分层架构中的噪声传递问题，实现了从原始传感器信号到机器人动作的纵向统一和横向任务统一。自变量机器人在短短一年半的时间内完成了七轮融资，累计融资金额已超10亿元，其“大小脑统一的端到端大模型”路线受到了多方投资机构的青睐。

随着谷歌Gemini Robotics On-Device模型的发布和国内外科技企业在具身智能领域的不断探索，未来我们将看到越来越多的智能机器人在各个领域中的广泛应用。具身智能不仅仅是技术的进步，更是对未来生活方式的深刻影响，引领着我们走向更加高效、便捷的智能时代。

谷歌推出Gemini Robotics On-Device模型，引领具身智能革命

精品推荐

相关文章