摩尔线程发布PyTorch新版MUSA扩展库，性能大幅提升

时间：2026-01-03 02:00

小编：星品数码网

在深度学习领域，摩尔线程于11月28日正式发布了其最新版本的PyTorch MUSA扩展库，这一升级标志着功能集成、性能优化以及硬件支持的显著进步。此版本不仅提升了计算效率，还为开发者提供了更加便捷的版本管理方式。

版本号同步与功能升级

重要的改变之一是，自v2.5.0版本开始，Torch-MUSA的版本号将与主流PyTorch版本号保持同步。这一措施大大简化了开发者在版本识别与管理中的操作，使得识别新功能以及与现有代码的兼容性变得更加容易。

在v2.7.0版本中，摩尔线程进一步整合了多个计算加速库，包括muSolver和muFFT，这一变化显著提高了复杂计算任务的执行效率，同时也为深度学习应用提供了更强大的支持。新版本引入的统一内存管理（Unified Memory Management, UMM）能够有效优化内存使用效率，使得在多种运行场景下表现更加出色。

新功能与性能优化

Torch-MUSA v2.7.0版本应用了多项新功能，意图为用户提供更优质的使用体验。新增的动态双精度转换功能允许用户在环境变量中设置开启此特性后，torch_musa将浮动到 float32 作为计算数据类型，从而在浮动精度和性能之间达成良好的平衡。

分布式检查点功能的引入，也让模型的保存与加载变得更加高效。通过支持多个rank并行加载和保存模型，整个过程的速度得到显著提升。在异步保存的支持下，用户可以享受到更为流畅的端到端深度学习体验。

新版本新增了多项算子，包括Poisson、binomial、_standard_gamma、standard Dirichlet sampling、vdot、upsample、以及支持Transformer模型的flash_attention和transformer_encoder_layer等。这一系列功能的推出使得Torch-MUSA专属算子的总数已超过1050个，极大扩展了用户的计算工具库。

底层支持与性能工具升级

在底层支持方面，Torch-MUSA的升级不仅提升了torchpile和AOTInductor的功能，同时默认启用了TF32计算模式，极大提高了浮点运算效率。针对性能分析工具Kineto，摩尔线程也进行了相关优化，并将其版本升级至2.7.0，提高了工具的稳定性和功能性。这一系列改进都在助力开发者更高效地调试和优化他们的深度学习模型。

为了更好地支持边缘计算设备，MUSA扩展库现在支持统一内存管理（UMA）设计，使GPU和CPU可以共享相同的物理内存空间。这一合作能显著减少模型运行时的内存开销，主要体现在消除GPU端的重复内存分配、减少主机与设备间的内存拷贝等方面，从而达到优化模型运行效率的目的。

其他优化与补充功能

本次更新还完善了多个基本算子的支持，包括ilshift、irshift、replication_pad1d_bwd、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int等，扩充了量化算子支持范围。解决了torch.norm形状错误的问题，并增加了C++扩展的Tensor.is_musa()方法，增强了开发灵活性。

同时，为了全面提升深度学习模型的性能，Torch-MUSA还在var/std、pad、convolution3d、layer_norm等操作上进行了执行效率的优化。还开放了torch.musa.mccl.version()接口，以及支持getCurrentMUSABlasHandle和getCurrentMUSABlasLtHandle，使得开发者能够更容易地管理和调用MUSA的BLAS库。

摩尔线程推出新的PyTorch MUSA扩展库，展示了其在深度学习领域不断探索与创新的决心。通过多项优化和功能增强，新版本将进一步促进深度学习应用的发展，特别是在大模型的训练与推理方面，为开发者提供更加高效、可靠的底层支持。随着这一扩展库的发展，基于MUSA架构的国产全功能GPU深度学习生态系统也将继续完善，助力AI技术的进步。

获取更多信息或参与开源开发，请访问Torch-MUSA的开源地址：[Torch-MUSA GitHub](https://github/MooreThreads/torch_musa)。

摩尔线程发布PyTorch新版MUSA扩展库，性能大幅提升

精品推荐

相关文章