400 128 6709

行业新闻

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能

发布时间:2023-09-09点击次数:

重新表达:研究动机


掩码建模(MIM, MAE)被证明是非常有效的自监督训练方法。然而,如图 1 所示,MIM 对于更大的模型效果相对更好。当模型很小的时候(比如 ViT-T 5M 参数,这样的模型对于现实世界非常重要),MIM 甚至可能一定程度上降低模型的效果。比如用 MAE 训练的 ViT-L 比普通监督训练的模型在 ImageNet 上的分类效果提升 3.3%,但是用 MAE 训练的 ViT-T 比普通监督训练的模型在 ImageNet 上的分类效果降低了 0.6%。

在这篇工作中我们提出了 TinyMIM,其在保持 ViT 结构不变并且不修改结构引入其他归纳偏置(inductive bias)的基础上、用蒸馏的方法迁移大模型上的知识到小模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



  • 论文地址:https://arxiv.org/pdf/2301.01296.pdf
  • 代码地址:https://github.com/OliverRensu/TinyMIM

我们系统性的研究了蒸馏目标、数据增强、正则化、辅助损失函数等对于蒸馏的影响。在严格的只用 ImageNet-1K 作为训练数据的情况下(包括 Teacher model 也只用 ImageNet-1K 训练)和 ViT-B 作为模型,我们的方法实现了当前最好的性能。如图所示:

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



把我们的方法(TinyMIM)和基于掩码重建的方法 MAE,以及监督式学习的方法从头开始训练的 DeiT 作比较。MAE 在模型比较大的时候有显著的性能提升,但是在模型比较小的时候提升幅度有限甚至会伤害模型的最终效果。我们的方法 TinyMIM 在不同模型的大小上都有大幅提升。

我们的贡献如下:

1. 蒸馏的目标(Distillation targets):1)蒸馏 token 之间的关系比单独蒸馏 class token 或者特征图(feature map)更有效;2)用中间层作为蒸馏的目标更有效。
2. 数据增强和模型正则化(Data and network regularization):1)用带掩码的图片效果更差;2)学生模型需要一点 drop path,但是 teacher 模型不需要。
3. 辅助损失函数(auxiliary losses):MIM 作为辅助损失函数没有意义。
4. 宏观蒸馏策略(Macro distillation strategy):我们发现序列化的蒸馏(ViT-B -> ViT-S -> ViT-T)效果最好。

二、方法

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



我们系统性的调研了蒸馏的目标,输入的图片,蒸馏目标模块。

2.1 影响蒸馏效果的因素

1)特征:

a. 中间 block 特征和输出特征

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



当 i=L 时,指的是 Transformer 输出层的特征。当 i

b. 注意力(Attention)特征和前馈层(FFN)层特征

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



Transformer 每一个 block 有 Attention 层和 FFN 层,蒸馏不同的层会带来不同的影响。

c.QKV 特征

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



在 Attention 层内会有 Q,K,V 特征,这些特征用于计算注意力机制,我们也调研了直接蒸馏这些特征。

2)关系

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



Q,K,V 用于计算注意力图,这些特征之间的关系也可以作为知识蒸馏的目标。

3)输入:是否带掩码

传统的知识蒸馏是直接输入完整的图片。我们的方法为了探索蒸馏掩码建模模型,所以我们也探索了带掩码的图片是否适合作为知识蒸馏时候的输入。

2.2 知识蒸馏方法对比

1)Class Token 蒸馏:

最简单的方法就是类似 DeiT 直接蒸馏 MAE 预训练模型的 class token:

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



其中微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能指学生模型的 class token,而 微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能指老师模型的 class token。

2)特征蒸馏:我们直接参考了 feature distillation [1] 作为对比

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能

网易人工智能 网易人工智能

网易数帆多媒体智能生产力平台

网易人工智能 233 查看详情 网易人工智能


微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能


3)关系蒸馏:我们提出了也是本文默认的蒸馏策略

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



三、实验

3.1 主要实验结果

我们的方法在 ImageNet-1K 上预训练,而且教师模型也是在 ImageNet-1K 预训练。然后我们将我们预训练的模型在下游任务(分类、语义分割)上进行了微调。模型表现如图:

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



我们的方法显著超过之前基于 MAE 的方法,尤其是小模型。具体来讲,对于超小的模型 ViT-T,我们的方法实现了 75.8% 的分类准确性,相比 MAE 基线模型实现了 4.2 的提升。对于小模型 ViT-S,我们实现了 83.0% 的分类准确性,比之前最好的方法提升了 1.4。对于 Base 尺寸的模型,我们的方法分别超过 MAE 基线模型和以前最好的模型 CAE 4.1 和 2.0。

同时我们也测试了模型的鲁棒性,如图所示:

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



TinyMIM-B 对比 MAE-B,在 ImageNet-A 和 ImageNet-R 分别提升了 + 6.4 和 +4.6。

3.2 消融实验

1)蒸馏不同关系

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



同时蒸馏 QK,VV 关系而且在计算关系的时候有 Softmax 实现了最好的效果。

2)不同的蒸馏策略

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



TinyMIM 这种蒸馏关系的方法实现了比 MAE 基线模型,class token 蒸馏,特征图蒸馏都更好的效果,在各种尺寸的模型上都是如此。

3)蒸馏中间层

微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能



我们发现蒸馏第十八层实现了最好的效果。

四、结论

在本文中,我们提出了 TinyMIM,它是第一个成功地使小模型受益于掩码重建建模(MIM)预训练的模型。我们没有采用掩码重建作为任务,而是通过以知识蒸馏的方式训练小模型模拟大模型的关系来预训练小模型。TinyMIM 的成功可以归功于对可能影响 TinyMIM 预训练的各种因素的全面研究,包括蒸馏目标、蒸馏输入和中间层。通过大量的实验,我们得出结论,关系蒸馏优于特征蒸馏和类标记蒸馏等。凭借其简单性和强大的性能,我们希望我们的方法能够为未来的研究提供坚实的基础。

[1] Wei, Y., Hu, H., Xie, Z., Zhang, Z., Cao, Y., Bao, J., ... & Guo, B. (2025). Contrastive learning rivals masked image modeling in fine-tuning via feature distillation. arXiv preprint arXiv:2205.14141.

以上就是微软亚洲研究院推出TinyMIM:通过知识蒸馏提升小型ViT的性能的详细内容,更多请关注其它相关文章!


# 中国科学院  # 证券市场营销推广中心  # 重庆seo零臻科技  # 百度seo推广收费  # 家电营销怎么引流推广的  # 小六SEO站长  # 抖音营销获客免费推广是真的吗  # 镇远营销推广方式  # 昆明智能营销推广方法  # 小家电营销推广怎么做  # 秦皇岛电商网站大全推广  # 腾讯  # 理论  # 提出了  # 中间层  # 实现了  # 网易  # 掩码  # 最好的  # 亚洲  # 微软  # 知识蒸馏  # 微软亚洲研究院 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 选对AI智能写作软件,让创作游刃有余!  重塑未来生活的五项技术趋势  看懂AI,找到增长新势能 | 笔记侠AI峰会等你来  腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能  掌阅科技对话式AI应用“阅爱聊”开启内测  郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会  微软bing聊天推出AI购物工具 可进行比价并查看历史最低价  英国前首相:AI可能被用来制造“生物恐怖武器”  Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗  消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术  谷歌推出新 AI 工具 Imagen Editor,一句话对图片二次创作  Moka AI产品后观察:HR SaaS迈进AGI时代  李开复官宣新公司「零一万物」,进军 AI 2.0  让AI助手带您轻松愉快地享受写作之旅  泗洪:畅通城市“血管” ,管下机器人来帮忙  利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队  Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合  日本演员工会提出AI立法建议 要求建立“声音肖像权”  加速电网转型升级推进新型电力系统建设  上天下海登极,青岛与昇腾AI握手一起探索星辰大海  特斯拉机器人面世 未来将大幅提振磁材需求,引领人工智能时代  国内首家,360智脑通过中国信通院可信AIGC大语言模型功能评估  大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用  世界周刊丨AI“棱镜”?  如何利用AI工具写好本科论文:科技助你一臂之力  微软新出热乎论文:Transformer扩展到10亿token  挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  2025年深圳举办的SUSECON 创新峰会开始接受报名  彬州市第三届青少年机器人创新大赛成功举办  爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT  时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了  在心理治疗中用VR技术,治疗成效显著提高  上影节直击 | AI技术降低了短片拍摄门槛?金爵奖评委不赞同  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  杀入生成式AI的亚马逊云科技,能否再次生成未来?  英伟达CEO宣称生成式AI已迎来“划时代时刻”  如何用AI重塑你的工作流(一)  常见的五个人工智能误解  AI+音乐如何“生成”动听旋律?一起揭秘世界人工智能大会开场曲  鸿蒙4即将支持大规模AI模型  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  OpenAI高管:AI能创造新的就业机会 但也会淘汰一些  谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程  卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?  AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit  月薪6万,哪些AI岗位在抢人?  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  人工智能在项目管理中的作用 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司