智元机器人携手北大攻克视觉语言模型挑战，推出OmniManip通用机器人新设计

时间：2025-01-28 16:20

小编：小世评选

在机器人领域，如何将视觉语言基础模型（Vision Language Models, VLMs）应用于机器人以实现通用操作，一直是具身智能发展的关键难题。近日，上海智元新创技术有限公司联合北京大学，成功攻克了这一挑战，推出了OmniManip通用机器人新设计。这一新技术的成功应用不仅标志着VLMs理论研究向实践转化的一大进展，也为机器人技术的普及和应用开辟了新的可能性。

实现这一目标面临两大核心挑战。VLMs本身存在的天然限制，主要是基于对比学习的训练方式，通常仅以二维图像和文本作为输入，这种单一维度的数据处理能力很难捕捉到更复杂的场景和操作。将VLMs在机器人数据上进行微调，以形成视觉-语言-动作（VLA）模型是一条可行的路径，但当前在数据收集成本和模型的泛化能力上仍存在不小的困扰。

在此背景下，智元机器人团队提出了基于以对象为中心的三维交互基元，成功地将VLM的高层次推理能力与机器人的低层次高精度动作相结合，形成了OmniManip的基础设计。该设计采用了一种创新的双闭环系统，通过引入VLM规划和机器执行的互动反馈机制，极大提升了机器人在真实环境中的操作性能。

OmniManip的关键设计特色主要集中在以下几个方面：

1. 结构化阶段分解：OmniManip利用VLM的强大常识推理能力，将复杂任务分解为多个结构化阶段，确保每一步的明确参数。每个阶段都清楚地指定了主动物体（主动方）、被动物体（被动方）和动作类型（Action），这为后续的任务执行奠定了坚实基础。

2. 3D基座模型构建：设计中通过3D基座模型生成与任务相关物体的三维模型及其规范化空间，这样，VLM能够在该空间中直接采样3D交互基元。通过这种方式优化交互目标姿态，进一步提升了机器人的操作精度。

3. 闭环规划与执行：在设定的目标交互姿态下，OmniManip通过渲染得到的Active和Passive物体的图像来进行VLM的评估与重采样，从而实现闭环调整。这一机制保证了机器人在乌合之众变化环境中仍能保持较高的灵活性与准确性。

4. 实时位姿更新：通过物体的六维姿态跟踪，OmniManip可以实时更新Active和Passive物体的位姿信息，并传递到机械臂末端执行器，实现精准的操作轨迹。这一能力让机器人在动态环境中进行实时操作成为可能。

OmniManip设计的另一个亮点是它具备强大的通用泛化能力，能够适应不同场景和物体，而不局限于特定的任务设置。这一特性使得OmniManip具有广泛的应用潜力，团队已成功将该技术应用于数字资产的自动标注和合成管道，并实现大规模机器人的轨迹自动采集。这不仅提升了工作效率，也为工业机器人应用的多样性提供了新的视角。

值得一提的是，该研究团队计划开源其泛化操作的大规模数据集以及相应的仿真评测基准，以便其他研究者能够借鉴与提升。这一举措将推动机器人领域的进一步发展，加速技术的普及与应用。

在企业发展方面，智元机器人自2022年底由稚晖君创立后，迅速崛起。最新披露的融资信息显示，智元机器人已完成A++++++轮融资，估值突破70亿元，受到了国内多家汽车巨头的关注与支持。当前，该公司已经成功下线了第1000台通用具身机器人，包括731台双足人形机器人与269台轮式通用机器人，标志着其在机器人领域的进一步成熟与规模化。

通过智元机器人与北大的合作，OmniManip的推出不仅为日常生活中的各类操作提供了新的解决方案，也为具身智能的发展奠定了理论基础与实践指导，预示着智能机器人将在未来承担更多社会与经济活动中的重要角色。

智元机器人携手北大攻克视觉语言模型挑战，推出OmniManip通用机器人新设计

精品推荐

相关文章