400 128 6709

行业新闻

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

发布时间:2023-07-16点击次数:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建

IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。

对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本

以上就是GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型的详细内容,更多请关注其它相关文章!


# 之家  # 网络营销之网上推广  # seo刷排名口碑易速达  # BC类推广seo  # 读书网站建设北路小学  # 整合营销传播怎么推广  # 福州网页seo哪个好  # 网站推广竞价推广好还是seo好  # 好网站建设公司文案  # 浠水seo推广策略  # 青州seo优化收费标准  # GPT-4  # 多个  # 是一种  # 使用了  # 怎么处理  # 重庆  # 自定义  # 亿元  # 老照片  # 自己的  # OpenAI 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: Spotify计划推出AI驱动的音乐播放器功能  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay  《自然》杂志拒绝刊登人工智能生成的图片和视频  首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展  【机智云物联网低功耗转接板】远程环境数据采集探索  探索AI前沿理念 2025全球人工智能技术大会在杭州开幕  中国最强AI研究院的大模型为何迟到了  前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来!  猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行  当孔子遇见AI|尼山的“数字”  美图影像节演讲实录:191次提及AI,发布7款影像生产力工具  谷歌推出新 AI 工具 Imagen Editor,一句话对图片二次创作  百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  大厂出品!这个AI网站太顶了,所有功能免费用  AI会帮我们把活干完吗?  无人机在电力巡检中的应用:全面解析高效巡检流程  WHEE安装教程  张勇对话多位诺奖得主 人工智能将无处不在  英伟达CEO宣称生成式AI已迎来“划时代时刻”  阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存  基于信息论的校准技术,CML让多模态机器学习更可靠  Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器  OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作  马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  美图第二届影像节发布七款AI影像创作工具  为什么很多人对纽约《人工智能招聘法》感到生气?  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  贫穷让我预训练  报道称亚马逊正在测试AI生成产品评价摘要  人工智能赋能广西自然资源领域监测监管  微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”  旷视入选北京市通用人工智能产业创新伙伴计划  280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了  机器人技能大比拼  Zoom远程会议应用:AI培训需经用户授权  人工智能颠覆软件测试四大方式  海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩  华为即将推出HarmonyOS 4,再度领先行业的AI技术  提高开发效率:AmazonCodeWhisperer与Amazon Glue的集成和生成式AI的应用  消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”  中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司