发布时间:2025-01-09
点击次数: ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

人工智能(AI)在过去十年取得了显著进展,这得益于神经网络规模的扩大和海量数据的训练。大型语言模型(LLM),例如ChatGPT,便是“做大做强”策略的成功案例。
然而,众多权威期刊如《自然》、《麻省理工科技评论》等指出,AI的扩展正遭遇瓶颈。一方面,AI消耗的能源日益增多;另一方面,为AI模型提供养分的传统数据集正被过度利用。
训练数据即将枯竭的警讯已现。研究机构预测,到2028年,AI模型训练数据集的典型规模将与现有公共在线文本总量相当,这意味着AI可能在短短四年内耗尽训练数据。同时,数据所有者(如报社)加强了对内容的版权保护,限制数据访问,加剧了“数据共享”危机。AI开发者必须另寻出路。
数据供需失衡日益严重
过去十年,LLM发展对数据的需求呈爆炸式增长。自2025年以来,用于训练LLM的“标记”(或单词)数量
增长了100倍,从数百亿飙升至数万亿。RedPajama等大型数据集包含数万亿个单词,这些数据经处理后成为训练LLM的定制数据集。
然而,互联网可用内容的增长速度远低于预期,年增长率不足10%,而AI训练数据集的规模却每年增长一倍以上。预测显示,这两者将在2028年左右相遇。
此外,越来越多的内容提供商通过软件代码或修改条款来阻止爬虫和AI抓取数据。2025年,明确禁止爬虫访问的内容比例不足3%,而2025年这一比例已激增至20%到33%。
围绕AI训练中数据使用的合法性,多起诉讼正在进行,数据提供商寻求获得合理的经济赔偿。例如,《纽约时报》和多家报纸已对OpenAI和微软提起诉讼,指控其侵犯版权。OpenAI则回应称诉讼“毫无根据”。
如果法院最终支持内容提供商的索赔请求,那么AI开发者,特别是资金有限的研究人员,获取所需数据将变得更加困难。
新的解决方案有待验证
数据匮乏对AI的传统扩展策略构成巨大挑战。
获取更多数据的途径之一是收集非公开数据,例如社交媒体信息或视频转录文本。然而,这种做法的合法性存在争议。
Health AI健康云开放平台
专注于健康医疗垂直领域的AI技术开放平台
113
查看详情
一些公司选择使用自身数据训练AI模型,例如Meta利用虚拟现实头显收集的音频和图像。但各公司政策不一,Zoom等公司明确表示不会使用客户内容训练AI。
另一种选择是专注于快速增长的专业数据集,例如天文学或基因组学数据,但其对训练LLM的适用性和有效性尚不明确。
如果AI能够接受多种类型的数据训练(而非仅限于文本),则可能解决数据匮乏问题。Meta首席AI科学家Yann LeCun指出,人类通过观察学习到的数据量远超用于训练LLM的数据量,类人机器人或许能从中受益。
此外,生成数据也是一种解决方案。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据。这可能成为巨大的数据来源。然而,合成数据也存在问题,例如可能会巩固错误,放大误解,降低学习质量。
小型化、专业化模型的兴起
另一种策略是放弃“模型越大越好”的理念,转向更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据和更先进的训练技术。
OpenAI发布的OpenAI o1模型就是一个例子,它更注重强化学习,让模型对每个回答进行更深入的思考,这标志着一种转变,即从依赖大规模预训练数据集转向更注重训练和推理。
LLM可能已经吸收了互联网大部分内容,或许无需更多数据即可变得更智能。斯坦福大学的研究表明,模型从多次读取相同数据集中学习到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。
合成数据、专业数据集、多次读取和自我反思等方法的结合,或许将共同推动AI的进一步发展。
文章来源:科技日报
以上就是AI发展:训练数据即将遭遇瓶颈的详细内容,更多请关注其它相关文章!
# 斯坦福大学
# 运城英文网站推广厂家电话
# seo全程引流
# 合肥家居网站建设
# 可以推广的网站app
# 个性网站建设方案
# 武汉网站推广专家咨询
# 上海谷歌seo怎么做
# SEO销售精英
# 怎么设置seo网页链接
# 闪电精灵seo 骗子
# 播客
# 麻省理工
# ai
# 首个
# 手把手
# 生命科学
# 腾讯
# 还能
# 进阶
# 多家
# chatgpt
# 2025
# 数据访问
# 小模型
# llm
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作
找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?
13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了
华为小艺AI助手将实现强大的大模型能力
腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作
兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机
苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO
ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严
研究预测HPC支持的人工智能增长迅速
世界人工智能大会上,科大讯飞宣布与华为联手
生成式人工智能来了,如何保护未成年人? | 社会科学报
大模型新品出现井喷,AI产业迎来新时代
网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准
编程版GPT狂飙30星,AutoGPT危险了!
MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码
AI和ML推动联网设备的增长
机器人加速!稀土永磁也被带火,持续性如何?
2025世界人工智能大会成功召开
开创全新虚拟现实体验的Pimax Crystal VR头显
大模型的“黄金搭档”来了!腾讯云正式发布AI原生向量数据库,提供10亿级向量检索能力
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?
《自然》杂志拒绝刊登人工智能生成的图片和视频
小艺将具备大模型能力,鸿蒙4加速AI普及之路
脑机接口产业联盟发布十大脑机接口关键技术
世界人工智能大会|“AI领航,共筑未来”高端保险论坛成功举办
OpenAI已向中国申请注册“GPT-5”商标,此前已在美国提交申请
华为盘古AI模型实现秒级全球气象预报时间缩短
自己动手使用AI技术实现数字内容生产
中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备
阿里云AI绘画创作大模型通义万相发布 已开启定向邀测
马斯克反讽人工智能AI炒作:“机器学习”本质就是统计
深企派遣无人机救援队赴京津冀开展防汛救灾任务
Snow Kylin登陆中国列车,打造全球首条元宇宙专列
中科院自研新一代 AI 大模型“紫东太初 2.0”问世
阿里达摩院向公众免费开放100项AI专利许可
【机智云物联网低功耗转接板】远程环境数据采集探索
百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”
映宇宙集团执行总编辑:元宇宙还是要以人为媒介
京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作
了解 AGI:智能的未来?
苹果AR头显商标与华为撞车,在中国或改名
微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取
WHEE使用教程
WHEE安装教程
多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展
百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要
上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破
联想举办2025创新开放日,展出260余项算力及AI产品技术
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
Bing 聊天机器人现支持在桌面端用语音提问