400 128 6709

行业新闻

MoE大模型制作指南:零基础手打法,大神级教程揭秘

发布时间:2024-01-30点击次数:

传说中gpt-4的“致胜法宝”——moe(混合专家)架构,自己也能手搓了!

Hugging Face上有一位机器学习大神,分享了如何从头开始建立一套完整的MoE系统。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

从零手搓MoE大模型,大神级教程来了

这个项目被作者叫做MakeMoE,详细讲述了从注意力构建到形成完整MoE模型的过程。

作者介绍,MakeMoE是受到OpenAI创始成员Andrej Karpathy的makemore启发并以之为基础编写的。

makemore是一个针对自然语言处理和机器学习的教学项目,意在帮助学习者理解并实现一些基本模型。

同样,MakeMoE也是在一步步的搭建过程中,帮助学习者更深刻地理解混合专家模型。

那么,这份“手搓攻略”具体都讲了些什么呢?

从头开始搭建MoE模型

和Karpathy的makemore相比,MakeMoE用稀疏的专家混合体代替了孤立的前馈神经网络,同时加入了必要的门控逻辑。

同时,由于过程中需要用到ReLU激活函数,makemore中的默认初始化方式被替换成了Kaiming He方法。

从零手搓MoE大模型,大神级教程来了

想要创建一个MoE模型,首先要理解自注意力机制。

模型首先通过线性变换,将输入序列变换成用查询(Q)、键(K)和值(V)表示的参数。

这些参数随后被用于计算注意力分数,这些分数决定了在生成每个token时,模型对序列中每个位置的关注程度。

为了确保模型在生成文本时的自回归特性,即只能基于已经生成的token来预测下一个token,作者使用了多头因果自注意力机制。

这种机制通过一个掩码来实现将未处理的位置的注意力分数设置为负无穷大,这样这些位置的权重就会变为零。

多头因果则是让模型并行地执行多个这样的注意力计算,每个头关注序列的不同部分。

从零手搓MoE大模型,大神级教程来了

完成自注意力机制的配置后,就可以创建专家模块了,这里的“专家模块”是一种多层感知器。

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

每个专家模块包含一个线性层,它将嵌入向量映射到一个更大的维度,然后通过非线性激活函数(如ReLU),再通过另一个线性层将向量映射回原始的嵌入维度。

这样的设计使得每个专家能够专注于处理输入序列的不同部分,并通过门控网络来决定在生成每个token时应该激活哪些专家。

从零手搓MoE大模型,大神级教程来了

于是,接下来就要开始构建分配和管理专家的组件——门控网络。

这里的门控网络同样是通过一个线性层实现,该层将自注意力层的输出映射到专家模块的数量。

这个线性层的输出是一个分数向量,每个分数代表了对应专家模块对于当前处理的token的重要性。

门控网络会计算这个分数向量的top-k值并记录其索引,然后从中选择top-k个最大的分数,用来加权对应的专家模块输出。

从零手搓MoE大模型,大神级教程来了

为了在训练过程中增加模型的探索性,作者还引入了噪声,避免所有token都倾向于被相同的专家处理。

这种噪声通常通过在分数向量上添加随机的高斯噪声实现。

从零手搓MoE大模型,大神级教程来了

获得结果后,模型有选择地将前k个值与相应token的前k个专家的输出相乘,然后相加形成加权和,构成模型的输出。

最后,将这些模块在一起,就得到一个MoE模型了。

针对以上的整个过程,作者都提供了相应的代码,可以到原文中具体了解。

另外,作者还制作了端到端的Jupyter笔记,可以在学习各模块的同时直接运行。

感兴趣的话,就赶快学起来吧!

原文地址:https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch
笔记版本(GitHub):https://github.com/AviSoori1x/makeMoE/tree/main

以上就是MoE大模型制作指南:零基础手打法,大神级教程揭秘的详细内容,更多请关注其它相关文章!


# 卖得  # 二维码营销推广策划  # 新乡全网营销整合推广招聘  # 湖北seo助手必看  # 网络推广宣传营销排名榜  # 湖南模板网站建设企业  # SEO教程视频软件推荐  # 高校网站建设需求分析  # 上海税务网站建设素材  # 重庆房产网络营销推广  # 怎么把网站建设美观  # 梦想家  # 数据  # 中国  # 多个  # 过程中  # 本田  # 是一个  # 来了  # 大神  # 门控  # hugging face  # ai 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 人工智能改变网络安全和用户体验的三种方式  美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  “直击”AI新世界,智能机器人再次“火出圈”了  走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!  调研海尔智家:AI名,家电命?  V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中  意大利警察拟用AI预测犯罪 该算法被指种族歧视严重  “一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报  酒店业将如何受益于人工智能的改变?  让AI助手带您轻松愉快地享受写作之旅  从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级  PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图  梦想实现!硬核科幻大片VR智能头盔即将问世  洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!  AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会  江永:精准施训提升通信无人机应急救援能力  大型无人机FH-98国内首次夜航转场成功  无人机在电力巡检中的应用:全面解析高效巡检流程  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程  码刻 | 48小时Hackathon,源码见证新生代AI创新的发生  英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”  上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破  郭帆导演成功利用AI技术制作的《流浪地球3》预告片在央视热播,引发巨大反响  RoboNeo操作教程  郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸  能源电力数字化转型恰逢其时  360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶  联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临  创新科学家成功研发FAST激光靶标维护机器人  AI赋能艺术 超现实达利奇幻之旅在沪开启  严打“黑飞”,无人机检测反制设备护航大运会净空安全  2025 WAIC|美团无人机发布第四代新机型  鸿蒙智能座舱的AI大模型革新,引领智能座舱领域的变革吗?  刊·见 | 捕捉人工智能领域最新动态?收藏Applied Artificial Intelligence  华为云天筹AI求解器荣获世界人工智能大会最高奖  谷歌推出 SAIF 框架,倡导安全环境下探索和发展人工智能  Gartner发布中国企业人工智能趋势浪潮3.0  一公司推出喷火机器狗,可喷出 9 米长火焰  统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学  WHEE上线时间介绍  五个出色的人工智能应用实例  2025年贵州省青少年机器人竞赛在安举行  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  马斯克称人类是半机器人,记忆外包给了电脑  陈根教授:离人形机器人时代还有10年吗?  一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命  华为AI大模型将融入HarmonyOS 4  AI取代人工先拿教育行业开刀?美版“作业帮”启动裁员 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司