星动纪元联合清华推出首个开源AIGC机器人大模型 VPP，提升机器人实时预测与执行能力

时间：2025-05-17 22:45

小编：小世评选

近日，星动纪元与清华大学叉院的ISRLab携手开发的首个开源AIGC（人工智能生成内容）机器人大模型VPP正式发布。这一模型的推出标志着机器人技术的重要进步，不仅提升了机器人的实时预测和执行能力，还为人形机器人商业化应用提供了有力的支撑。

VPP模型的核心优势在于其独特的生成式设计，成功将视频扩散模型的泛化能力转移到机器人操作策略中。这一创新解决了传统diffusion推理速度慢的问题，使得机器人能够实时预测未来场景并进行相应的动作执行，从而显著提高了机器人的策略泛化性。相关研究成果还被认可为ICML 2025的重点展示内容，显示了该技术的前瞻性和重要性。

VPP的工作原理与创新点

VPP模型采用了两阶段的学习框架，第一阶段是利用视频扩散模型学习预测性视觉表征。在这一阶段，机器人通过分析大量互联网视频数据，获得对未来场景的预判能力。第二阶段则通过Video Former和DiT扩散策略进行动作学习，进一步加强了机器人的实际操作能力。

1. 提前预知未来：以往，机器人只能基于当前观测来执行任务，这意味着执行过程往往存在延迟。而VPP模型赋予机器人“预知”的能力，机器人可以在实际行动前，通过分析视觉信息预测未来场景，从而更加高效地理解和执行指令。

2. 高频预测与执行：VPP模型的推理速度可以低于150毫秒，能够实现6-10Hz的预测频率，甚至在控制频率上超过50Hz。这意味着机器人在执行任务时，反应速度显著提升，能够更快地适应复杂动态环境。

3. 跨本体学习：VPP的设计突破了传统VLA（具身智能）模型的局限，能够直接学习不同形态机器人的视频数据，而不受维度限制。这使得模型可以汲取更为丰富的信息，特别是将人类操作数据纳入学习过程，有助于降低数据获取成本，提升模型的泛化能力。

4. 基准测试优异表现：在Calvin ABC-D标准测试中，VPP模型实现了4.33的任务完成平均长度，接近满分5.0，相较于以往技术提高了41.5%的性能。在真实场景的测试中，VPP也展现了良好的稳定性和高成功率，尤其是在灵巧操作任务中表现出色。

5. 灵巧操作能力：在实际应用中，VPP能在单臂+仿人五指灵巧手的XHAND上，完成超过100种复杂操作，并在双臂人形机器人上实现50多种动作。这一能力的提升，使得机器人能够独立处理各种日常任务，从简单的抓取到复杂的工具使用，广泛适应不同应用场景。

6. 可解释性与调试优化：与传统的VLA模型相比，VPP在可解释性方面表现优越。开发者可以通过预测的视频模型，在没有进行真实场景测试的情况下，提前发现潜在问题，进行相关的优化与调试。这一特性将大幅降低开发者的工作负担，节省大量测试时间。

未来展望

随着VPP的发布，机器人领域将迎来新的发展机遇。该模型不仅为研究人员和开发者提供了强大的工具，也为各行各业的商业化应用提供了新的可能性。从智能制造到家庭服务，VPP的灵活性和强大的学习能力有望推动机器人技术的普及和应用。

值得注意的是，VPP的开源特性，也使得越来越多的开发者能够参与到这一项目中，进一步推动技术的更新与发展。开发者们可通过以下链接获取相关资源：

论文地址：[VPP论文](https://arxiv.org/pdf/2412.14803)

项目地址：[VPP项目](https://video-prediction-policy.github.io)

开源代码：[GitHub仓库](https://github/roboterax/video-prediction-policy)

星动纪元与清华大学的合作推出的VPP机器人大模型，不仅是技术领域的一次重大突破，将深刻改变机器人操作的思维方式与应用前景，更为未来机器人技术的发展提供了重要的理论基础与实践指导。

星动纪元联合清华推出首个开源AIGC机器人大模型 VPP，提升机器人实时预测与执行能力

精品推荐

相关文章