谷歌推出Gemini Robotics On-Device模型,引领具身智能革命
时间:2025-07-03 17:30
小编:小世评选
在近年来的科技发展中,具身智能(Embodied Intelligence)逐渐成为一个热门话题,其核心在于将人工智能与物理世界的交互融合,以实现更为自然和高效的人机协作。近年来,视觉-语言-动作(VLA)模型的出现,为这一领域注入了新活力。近日,谷歌正式发布了Gemini Robotics On-Device模型,这是一个专为机器人端侧设计的VLA模型,能够在设备本地离线运行,无需依赖任何网络连接,从而标志着机器人技术的又一次重大飞跃。
Gemini Robotics On-Device模型展示了卓越的视觉识别、语言理解和行动执行能力,使机器人得以在复杂的现实环境中独立工作。该模型的出现解决了以往机器人在处理复杂指令时的种种困难,使得它们能够理解自然语言并顺利执行高难度任务,如拉开拉链、折叠衣物等。这一突破性技术显著提升了机器人对于复杂环境的适应能力,为其广泛应用于家庭、工业以及灾后救援等多种场景打下了坚实的基础。
作为具身智能的新范式,VLA模型为机器人提供了一个全新的工作方式,它将语言指令、视觉输入与物理动作紧密结合。在2023年,谷歌推出的Gemini Robotics系列模型引起了广泛关注,微软、Figure AI等国际科技公司也纷纷加大对这一技术的投入。同时,国内的机器人公司如银河通用、智元机器人、自变量机器人等亦在积极布局,推动VLA模型的发展,形成了一个竞争与合作并存的局面。
谷歌DeepMind团队推出的Gemini Robotics是这个新的技术中的佼佼者。其基于Gemini 2.0构建的模型如同机器人的“大脑”,能够高效理解复杂的环境并完成诸如折纸、拉拉链等精细任务。在使用双臂机器人进行演示时,Gemini Robotics展示了极高的灵活性和响应速度,令在场的观众对其能力刮目相看。
而Gemini Robotics On-Device的发布,标志着具身智能技术的一个重大转变。从依赖云端计算能力,转向能够在本地自主运行,意味着机器人在没有网络的环境中能够独立完成工作。这对于机器人在工业生产、灾区救援等特定场景中的应用,具有重大现实意义。
Gemini Robotics On-Device具备多项优越特性,其中包括专为灵巧操作设计、能够通过微调适应新任务以及经过优化后在本地实现超低延迟推理。这使得其在执行日常任务时更为高效且准确。谷歌还推出了Gemini Robotics SDK,为开发者提供了评估模型性能的工具,加快了新的技能学习过程。仅需50至100个演示,开发者便可完成对机器人模型的性能评估,大幅度降低了机器人学习新技能的门槛,推动了机器人技术的普及。
随着VLA模型的快速发展,中国的机器人企业也在不断跟进,积极推出相应的技术。银河通用近期推出了TrackVLA和GroceryVLA两款端到端VLA大模型,前者聚焦于物体追踪,而后者则在商业场景中展现了出色的能力。搭载GroceryVLA的Galbot机器人,在商超环境中能够准确理解顾客指令,为其挑选食物并送到手中,展示出了出色的零样本泛化能力。
智元机器人则推出了首个通用具身基座模型——智元启元大模型(GO-1)。此模型采用了Vision-Language-Latent-Action架构,该架构能够通过人类视频学习实现小样本快速泛化,完美适应多变环境。GO-1已成功部署在智元多款机器人中,显著提升了其智能化水平。
自变量机器人也在这一领域不断创新,推出了端到端统一具身大模型WALL-A。该模型有效突破了传统分层架构中的噪声传递问题,实现了从原始传感器信号到机器人动作的纵向统一和横向任务统一。自变量机器人在短短一年半的时间内完成了七轮融资,累计融资金额已超10亿元,其“大小脑统一的端到端大模型”路线受到了多方投资机构的青睐。
随着谷歌Gemini Robotics On-Device模型的发布和国内外科技企业在具身智能领域的不断探索,未来我们将看到越来越多的智能机器人在各个领域中的广泛应用。具身智能不仅仅是技术的进步,更是对未来生活方式的深刻影响,引领着我们走向更加高效、便捷的智能时代。