Hugging Face发布开源机器人模型SmolVLA，支持消费级硬件运行

时间：2025-07-22 00:45

小编：小世评选

近日，Hugging Face正式发布了一款开源的机器人模型SmolVLA，这一新模型以其4.5亿个参数而闻名，主要面向希望在消费级硬件上进行开发的爱好者和研究人员。例如，使用MacBook Pro等普通计算设备的开发者，现在可以轻松地实验和构建各类机器人应用，从而降低入门成本。

在当前的人工智能领域，尤其是机器人技术，视觉-语言-行动（Vision-Language-Action，VLA）模型正在逐渐成为研究的主流。此类模型试图通过一个统一架构，将视觉感知、语言理解与行动决策进行整合，进而赋予机器人更高的自主执行复杂任务的能力。由于训练过程通常需要极为昂贵的设备和庞大的专业数据集，导致这些模型的大多数依然属于闭源形式，限制了许多开发者的参与。因此，Hugging Face推出的SmolVLA模型，则在力求减少入门障碍与提升机器人的普适性方面迈出了重要的一步。

SmolVLA的创新设计

SmolVLA在模型架构上融合了先进的Transformer结构与flow-matching解码器，并结合了四项关键的优化技术提升其性能与可用性。SmolVLA通过减少视觉模型中一半的层数，显著提高了推理速度和减少了模型的整体体积。模型采用交替融合自注意力与交叉注意力模块的方式，提高了多模态信息整合的效率，这对于实际应用中面对复杂信息的处理至关重要。通过降低视觉Token的数量，SmolVLA进一步提升了处理效率。，结合更轻量的SmolVLM2作为视觉编码器，使得模型在运行时对硬件的要求大大降低。

在训练策略方面，SmolVLA基于通用操作数据进行预训练，然后再进行特定任务的微调，以增强模型的适应性。尽管SmolVLA在训练数据量上不如现有其他VLA模型庞大，仅包含不到3万个任务记录，但Hugging Face团队表明这一模型依然能够达到可观的性能表现。

强化实用能力

另一个值得关注的创新是SmolVLA所采用的“异步推理架构”（Asynchronous Inference Stack），这一设计将视觉理解和动作执行解耦，从而使机器人在面对动态、快速变化的环境时仍能作出及时响应。这项技术意味着，无论是在忙碌的家庭环境还是工业应用中，SmolVLA都能够更有效地执行任务，大幅提升其实用性。

用户无需再花费巨额预算购买高端专用AI训练服务器，像MacBook Pro这样的普通消费级硬件即可顺利运行SmolVLA-450M模型。针对预算有限的用户，Hugging Face还推出了低成本的机器人，如SO-100与SO-101等，供开发者选择。

性能验证与应用场景

Hugging Face还进行了多项基准测试，验证了SmolVLA的优异性能。在使用真实机器人（如SO-100和SO-101）进行抓取、放置、堆叠与分类等任务的实验中，SmolVLA展现出了显著的性能优势，显示出其在多样化应用场景中的灵活性和能力。

目前，SmolVLA的基础模型已在Hugging Face上正式上线，完整的训练方法和相关文档也已同步在GitHub上公开，极大地方便了开发者的使用与学习。

随着这一创新型开源模型的推出，Hugging Face不仅在技术上作出了新的探索，也在推动机器人研究的普及与发展上起到关键作用。未来，相信SmolVLA将成为更多开发者梦想构建与实现智能机器人的重要工具，对整个行业产生深远的影响。对于希望进入这一领域的爱好者们而言，SmolVLA是一扇开启新世界的大门。

Hugging Face发布开源机器人模型SmolVLA，支持消费级硬件运行

精品推荐

相关文章