400 128 6709

行业新闻

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

发布时间:2023-07-16点击次数:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建

IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。

对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本

以上就是GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型的详细内容,更多请关注其它相关文章!


# 之家  # 网络营销之网上推广  # seo刷排名口碑易速达  # BC类推广seo  # 读书网站建设北路小学  # 整合营销传播怎么推广  # 福州网页seo哪个好  # 网站推广竞价推广好还是seo好  # 好网站建设公司文案  # 浠水seo推广策略  # 青州seo优化收费标准  # GPT-4  # 多个  # 是一种  # 使用了  # 怎么处理  # 重庆  # 自定义  # 亿元  # 老照片  # 自己的  # OpenAI 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  成都大运会闭幕式引入人形机器人展示表演  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组  世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相  看懂AI,找到增长新势能 | 笔记侠AI峰会等你来  人工智能助力林草行业高质量发展  华为推出两款商用 AI 大模型存储新品,支持 1200 万 IOPS 性能  WHEE功能介绍  “长沙造”无人机,领先的不止植保  速途网络成立“人工智能专家委员会”5位中美博士加盟  ​《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!  羚客系统即将升级,推出全新的AI数字化工具  一文看懂被英伟达看中的九号机器人移动底盘  微软向美国政府提供GPT的大模型,安全性如何保证?  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  调研海尔智家:AI名,家电命?  对话无界AI创始人长铗:AI的创业机会在应用层丨创新者Innovator  AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者  普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景  到中国科技馆体验“一滴油的奇妙旅行”,线上元宇宙展厅同步开启  美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  7大探索区域打造沉浸式玩乐“元宇宙” 昆明京东MALL未来科技探索官全城招募中  国内阅读行业首款对话式AI应用“阅爱聊”封闭内测  华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合  前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来!  清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步  不到2S创作AI图像!Snap发布图像生成器SnapFusion  1000万张照片训练AI模型 科学家找到水下定位新方法  Meta发布"类人"AI图像创建模型,能解决多出手指等Bug  华为发布大模型时代AI存储新品  华为昇腾AI原生支持30多种基础大模型,包括GPT  谷歌在人工智能领域没有“护城河”?  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会  曝索尼在开发新头显设备:游戏中使用AR技术  人工智能在重症监护室的未来  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  ​日媒:AI高效解析纳斯卡地画  0代码微调大模型火了,只需5步,成本低至150块  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  全面拥抱大模型浪潮,ISC 2025打造全球首场AI数字安全峰会  微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测  苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景  华为将于 7 月发布面向 AI 大模型的新款存储产品  用AI升级会议体验!思必驰多款会议产品亮相全球智博会!  华为云盘古大模型3.0发布 AI云服务同时上线:200亿亿次性能 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司