银河通用发布全球首款具身 FSD 大模型 TrackVLA 实现语言驱动智能跟随

时间：2025-06-05 01:35

小编：星品数码网

近日，银河通用正式推出全球首款具身FSD（Fully Self-Driving）大模型——TrackVLA。这款创新的导航大模型不仅具备纯视觉环境感知和自然语言指令驱动能力，还能够实现自主推理及零样本泛化。其推出标志着机器人技术的又一次重大突破，向实现更智能化和自主化的应用迈出了坚实的一步。

TrackVLA是一个以“视觉-语言-动作”（Vision-Language-Action, VLA）模型为基础的端到端系统，它通过仿真合成动作数据进行训练，形成了强大的环境感知与行为执行能力。其核心理念是让机器人通过“听、看、懂、走”的过程完成任务，这不仅大大增强了机器人的理解力和适应性，也为实际应用提供了更多可能。

这款具身大模型拥有八项核心能力，使其在复杂多变的环境中表现出色：

1. 语音指令理解与目标切换: 用户只需一句简单的语音指令，TrackVLA便可识别目标并开始跟随。例如，当指令为“跟着妈妈”时，机器人能够识别出“妈妈”的位置；如果用户更改指令为“换成跟孩子”，它能够快速切换目标并确认。

2. 精准识别，不惧复杂环境: 在人流密集的购物中心中，TrackVLA凭借其强大的空间理解和视觉记忆机制，能够在复杂的场景中准确识别并长时间自主跟随目标，有效避免“认错人”的情况发生。

3. 失去目标时的自主判断与寻找: 若目标暂时离开机器人视线，TrackVLA并不会停滞不前，而是通过实时的空间智能和大模型推理能力，推测出目标可能的位置并规划路径，寻找回目标。

4. 自我适应于陌生环境: TrackVLA不依赖于事先建图，而是通过纯视觉输入理解周围环境。这使得它能够在陌生的商场、电梯和游乐区等场所，自如开展跟随任务，展现出卓越的实用性。

5. 智能避障能力: 在儿童游乐区或狭窄通道等复杂条件下，TrackVLA能够实时识别障碍物，并判断通行路线，确保自身通过安全，同时避免碰撞。

6. 环境适应性强: 无论是在阳光明媚的户外还是昏暗的室内，TrackVLA都能保持极高的鲁棒性，自动调整应对策略，无需人工干预。

7. 远程监控与智能服务: 通过搭载的App，用户能够实时查看机器人的视角，随时了解家中亲人的动态。系统还具备主动警报功能，比如在小朋友奔跑或老年人跌倒时发出风险提示，从而实现“移动守护”的功能。

8. 技能涌现与自我学习: TrackVLA不仅能够稳定跟随人类，还可以在未经过训练的情况下泛化至任意移动目标，比如智能跟随街上偶遇的狗狗。这种训练时未教过的技能展现了其强大的适应能力和自我学习能力。

TrackVLA已成功应用于宇树机器狗的“二宝保镖”项目，通过严格的长程验证，在实际场景中表现出色。在一次超市的任务中，TrackVLA能够顺利穿梭于人流和货架之间，准确跟随母子，同时还能根据语音指令灵活调整跟随对象。在儿童玩耍的情况下，机器人还能够主动发出提示，确保孩子们的安全。

银河通用的TrackVLA不仅推动了具身智能技术的发展，且为机器人在日常生活中的应用开辟了新的方向。随着这一技术的不断完善和迭代，未来的生活场景中，智能机器人将能够更好地融入我们的生活，承担起更多的责任和任务，实现真正的智能服务。我们有理由相信，TrackVLA所代表的这一智能化进展，将是未来智能家居和公共服务领域的一次全新飞跃。

银河通用发布全球首款具身 FSD 大模型 TrackVLA 实现语言驱动智能跟随

精品推荐

相关文章