谷歌推出Gemini Robotics On-Device升级版机器人AI迈向新阶段

时间：2025-06-25 21:25

小编：小世评选

随着科技的飞速进步，人工智能在机器人领域的应用正变得越来越广泛。近期，谷歌在机器人技术上又迎来了一次重大的突破。他们推出了Gemini Robotics的“On-Device”版本，进一步巩固了其在机器人AI领域的领先地位。

今年三月，谷歌首次发布了Gemini Robotics的“视觉语言动作”（Visual Language Action，VLA）模型，标志着其机器人智能领域的新起点。而在刚刚推出的Gemini Robotics On-Device中，谷歌在这一模型的基础上进行了全面升级，赋予其更强大的本地运行能力。这一新版本不仅能够在机器人设备上独立操作，还解决了许多延迟和网络连接不稳定的问题，为实际应用场景提供了更大的灵活性。

谷歌DeepMind的高级总监兼机器人主管表示，这个最新版本的模型设计和优化使其能够在没有网络连接或存在间歇性断网的情况下，依然稳定运行。这种能力对于追求实时反应的机器人应用显得尤为重要，特别是在制造、物流和个人助理等领域。

Gemini Robotics On-Device特别针对“双臂机器人”开发，目的是提高机器人在复杂任务中的适应能力。例如，在之前的示范中，谷歌团队展示了运行这种本地模型的机器人，成功地完成了一些基础任务，如拉开拉链和折叠衣物。这些基础动作的完成，不仅展示了技术的成熟度，更显示了双臂机器人的灵巧性与实用性。

据悉，尽管最初为ALOHA机器人进行训练，谷歌后来对模型进行了改进，使其能够兼容双臂Franka FR3机器人和Apollo人形机器人，从而拓展了Gemini Robotics的应用范围。谷歌还推出了Gemini Robotics的开发工具包（SDK），允许开发者在MuJoCo高级物理模拟器上使用这些模型，以便通过50到100个任务演示来训练机器人执行复杂任务。这种灵活的训练方式，大大提高了机器人适应不同任务的效率。

与传统的“大语言模型”相比，机器人AI面临的挑战要更加复杂。机器人不仅存在于物理世界中，还能通过行动改变环境，使得对其行为的设计和控制变得更加困难。谷歌DeepMind的机器人技术负责人指出，Gemini不仅能生成文本、撰写诗歌、文章，甚至编写代码，还能够生成具体的机器人动作。这表明，谷歌的机器人模型已经能够通过大规模的数据训练，解决各种物理世界中的问题，从而在实际操作中呈现出更高的灵活性和适应性。

随着机器人智能化程度的提高，安全问题也逐渐显现。相比对话型机器人AI的实际应用中出现意外状况的可能性更高，这自然引发了人们的关注。谷歌意识到这一点并采取了相应的措施来保护Gemini Robotics的安全性。他们采用了多层次的安全限制机制，具体控制机器人的底层是一个VLA模型，而其上则是一个使用推理模型的上级VLA模型。这种“AI管理AI”的方法，旨在确保只有安全的指令才能执行，从而有效降低潜在风险。

毫问，机器人AI正在打开一个崭新的赛道，许多科技巨头如Nvidia等公司相继投入资源进行相关研究，国内也必然有无数企业在这个领域里默默耕耘。未来的人工智能竞争将不仅限于软件应用，更将扩展到智能硬件的高度融合与协作，让我们共同期待这场新的AI较量的到来。

随着Gemini Robotics On-Device的推出，谷歌再一次证明了其在机器人AI赛道的技术实力。未来的机器人将更具智能性、人性化，与人类的生活、工作产生更深层次的交互和联系，开启人机协作的新篇章。