发布时间:2025-11-28
点击次数: 11月28日,摩尔线程正式推出pytorch深度学习框架的最新musa扩展版本——torch-musa v2.7.0。此次更新在功能集成、性能调优以及硬件兼容性方面均实现了显著提升。
尤为引人注目的是,在短短一个月内,Torch-MUSA接连发布了v2.5.0与v2.7.0两个重要版本,展现出快速迭代与高效开发的能力。
此外,自v2.5.0版本起,Torch-MUSA的版本号已与PyTorch主版本保持一致,便于开发者更直观地识别和管理依赖关系,降低使用门槛。
本次发布的v2.7.0版本进一步整合了muSolver、muFFT等高性能计算库,大幅提升了复杂算法任务的运行效率;
同时新增对统一内存设备(Unified Memory)UMM的支持,有效改善内存资源的利用效率。
该版本持续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译构建。
截至目前,Torch-MUSA已专属支持超过1050个算子,系统整体在性能和稳定性方面持续优化,为大规模模型的训练与推理提供了更加高效可靠的底层支撑。
下一个规划版本将是v2.9.0,将继续聚焦于性能增强与功能完善,稳步推进基于MUSA架构的国产全功能GPU深度学习生态建设。
▼ Torch-MUSA开源地址:
https://www.php.cn/link/7905b0944f96ad2ec318855ae68fed89

▼ 动态双精度转换(Dynamic Double Cast)
通过设置环境变量 export TORCH_USE_MUSA_DOUBLE_CAST=1,可启用Float64类型算子的动态降级机制,torch_musa将自动采用float32作为实际计算精度,兼顾精度需求与运算效率。
▼ 分布式检查点(Distributed Checkpoint)
支持多rank并行加载与保存模型状态,显著加快检查点操作速度。当前已实现异步保存功能,适用于大规模分布式训练场景。
▼ 新增 Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d/2d/3d with aa)、flash_attention、transformer_encoder_layer 等多个常用算子,MUSA专属算子总数突破1050个。
▼ 基于PyTorch底层升级,进一步强化 torch.compile 与 AOTInductor 的支持能力;
▼ 默认开启 TF32 计算模式,提升浮点密集型任务的执行效率;
▼ 升级性能分析工具 Kineto 至2.7.0版本,并优化其运行稳定性;
▼ 持续改进 FSDP2 流水线并行策略,进一步压缩显存占用。
独响
一个轻笔记+角色扮演的app
249
查看详情
▼ 集成 muFFT 与 muSolver 加速库,显著拓展科学计算与工程*领域的应用潜力;
▼ 在边缘计算SoC设备中引入统一内存管理机制,基于Arm架构的UMA设计,实现CPU与GPU共享同一物理内存空间,带来以下优势:
▼ 新增 ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd 等多个算子支持;
▼ 初步支持基础 Sparse(CSR) 相关操作;
▼ 扩展量化算子覆盖范围;
▼ 修复 torch.norm 存在的形状推导错误问题;
▼ 支持 reduce_sum 接收 uint8 输入并输出 int64 结果;
▼ C++扩展中新增 tensor.is_musa() 方法;
▼ 修正空输入情况下 argmax/argmin 的异常行为;
▼ 优化 var/std、pad、convolution3d、layer_norm 等关键操作的执行性能。
▼ 开放接口 torch.musa.mccl.ver
sion(),便于用户查询MCCL版本信息;
▼ 支持获取当前MUSA BLAS及BLASLt句柄:getCurrentMUSABlasHandle 与 getCurrentMUSABlasLtHandle;
▼ 优化FSDP2流水线并行策略,有效降低训练过程中的内存消耗。
以上就是摩尔线程发布Torch-MUSA v2.7.0:专属算子超过1050个的详细内容,更多请关注其它相关文章!
# musa
# 边缘
# 欧洲
# 长江
# 多个
# r
# 高效开发
# 摩尔线程
# pytorch
# 深度学习
# 环境变量
# c++
# 工具
# github
# git
# 显卡
# 边缘计算
# 潍坊网站建设服务平台
# 网站搭建需要优化哪些
# 装修哪个网站推广好
# 海南智能网站建设制作
# 清远精准营销推广系统
# 黄骅seo哪家价格低
# 宁海网站优化托管
# 合肥网站建设制作商
# 布艺手工创意网站推广
# 推广小助手国外网站是什么
# 明年
# 直发
# 的是
# 图赏
# 原厂
# 卖家
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
人工智能产业竞跑“未来赛道” 创新发展放大“赋能”效应
一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱
大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战
小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学
国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用
加强高质量数据供应能力,促进通用人工智能大模型领域的创新
利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队
智能电网技术:提高能源效率和可靠性
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
学而思网校推出首个基于自研大模型的《人工智能第一课》
彭博社:苹果Vision Pro曾测试VR手柄追踪方案
百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”
国内通用人形机器人将发布、产业加速突破
Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月
“具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?
赋能金融新生态,多家银行创新应用成果亮相世界人工智能大会
AI工具助力公司实施每周4.5天工作制,带来巨大效益
外科医生的智能助手,“机器人手术”得到补充商业医保覆盖
生成式人工智能来了,如何保护未成年人? | 社会科学报
谷歌推出 SAIF 框架,倡导安全环境下探索和发展人工智能
日入400万,第一批AI骗子已上岗
Snap宣布研发出新技术 可大幅提升AI生成图像速度
特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会
全场景智能车:智能无处不在|芯驰亮相世界人工智能大会
微软在德国举办MR研讨会,向女性分享元宇宙潜力
AYANEO AIR 1S 掌机 7 月 9 日发布:R7 7840U + OLED 屏
AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会
曝索尼在开发新头显设备:游戏中使用AR技术
当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?
【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资
视觉中国推出AI灵感绘图功能,付费后可在“合法合规前提下使用”
苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网
IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步
史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万
在心理治疗中用VR技术,治疗成效显著提高
AI+游戏首度大范围公布实际应用成果,AI全面来临还有多远?
业内领先 四川大学华西第四医院甲状腺乳腺外科成功进入手术机器人时代
美图影像节演讲实录:191次提及AI,发布7款影像生产力工具
新闻传闻:迪士尼可能采用人工智能来控制电影制作成本
如何用户外电源给无人机实现持久续航
小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
人才智能平台转型中的人工智能的关键角色
AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会
百度举办AIGC创作沙龙,现场传授AI绘画“咒语”技巧
马克龙密会AI专家,法国加入全球人工智能竞赛
机构:边缘AI或是当前预期差最大的AI方向
卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?