谷歌DeepMind推出全新Gemini Robotics本地化AI模型

时间：2025-06-26 06:45

小编：星品数码网

随着人工智能技术的不断发展，机器人在各个领域的应用正在逐步扩展。近日，谷歌DeepMind在其博客上正式宣布推出一个全新的AI模型——Gemini Robotics On-Device。此举标志着DeepMind在机器人智能化方面迈出了重要一步，尤其是在本地化处理能力上，该模型能够独立运行，且无需依赖云端，极大地提升了机器人的操作效率和安全性。

创新性架构与技术能力

Gemini Robotics模型是基于视觉-语言-动作（VLA）架构设计的，这种架构能够有效融合视觉输入、语言理解及动作执行，适用于各种复杂的机器人控制任务。其核心特性之一便是能够在本地直接进行操作，避免了与云服务器间的延迟，这对于需要快速反应的应用场景（例如医疗环境）尤为重要。同时，Gemini Robotics能够完成诸如打开包袋拉链、叠衣服与系鞋带等高精度操作任务，显示出其在处理细致工作时的能力。

该模型还采用了双机械臂设计，兼容多种优秀人形机器人的，如ALOHA、Franka FR3及Apollo等。这种多兼容性使得开发者能够更为方便地在各类机器人中部署这一AI模型。

开发者友好的生态系统

为了进一步推动Gemini Robotics的应用，谷歌DeepMind推出了Gemini Robotics SDK工具包。通过这个工具包，开发者可以方便地定制新的功能，只需50至100次任务演示即可。这种灵活性让开发者能够在现实环境中创造独特的应用场景，将Gemini Robotics的潜力充分发挥。该模型还支持MuJoCo物理模拟器进行测试，帮助开发者在真实部署前确保功能的稳定性与可靠性。

安全性与语义理解

在AI技术飞速发展的同时，安全问题也变得愈发重要。Gemini Robotics模型在这方面也考虑周全。系统采用了Live API实施语义安全检测，确保模型在执行任务时不会出现意外的风险。同时，底层安全控制器管理着机器人的动作力度与速度，进一步增强了操作的安全性。谷歌还推出了开放语义安全基准测试框架，供开发者评估其项目的安全性。

项目负责人Carolina Parada表示，该系统借鉴了Gemini的多模态世界理解能力，类似于Gemini在生成文本、代码和图像方面的能力，Gemini Robotics也能生成高质量的机器人动作。这种跨模态的理解和生成能力为机器人智能提供了更丰富的支持，使其在多种应用场景中具备更强的适应性与灵活性。

未来展望

虽然目前Gemini Robotics模型仅限于可信测试计划中的开发者使用，但凭借其强大的技术能力和灵活的开发，Gemini Robotics有望在未来的公共领域上展现出更加广泛的应用潜力。无论是在家务机器人、医疗辅助设备，还是在工业自动化领域，Gemini Robotics的出现都可能引领一场全新的技术革命。

谷歌DeepMind对此充满信心，虽然目前该模型是基于Gemini 2.0架构开发，但随着技术的不断迭代，未来版本的Gemini Robotics将更加先进，在不久的将来，用户将能够利用Gemini 2.5的最新技术来创造出更为智能和高效的机器人。

Gemini Robotics的推出，不仅标志着谷歌在机器人领域的一次重大突破，也为未来机器人与AI智能技术的结合提供了新的思路。随着这一技术的不断成熟和普及，我们有理由相信，机器人将在我们的生活中扮演越来越重要的角色，并为人类社会的进步做出更大的贡献。

谷歌DeepMind推出全新Gemini Robotics本地化AI模型

精品推荐

相关文章