发布时间:2023-11-09
点击次数: 生成式 AI 元年,大家的工作节奏快了一大截。
特别是,今年大家都在努力卷大模型:最近国内外科技巨头、创业公司都在轮番推出大模型,发布会一开,个个都是重大突破,每一家都是刷新了重要 Benchmark 榜单,要么排第一,要么第一梯队。
在兴奋于技术进展速度之快后,很多人发现似乎也有些不对味:为什么排行榜第一人人有份?这是个什么机制?
于是乎,「刷榜」这个问题也开始备受关注。
近日,我们关注到朋友圈和知乎社区对大模型「刷榜」这一问题的讨论越来越多。特别是,知乎一篇帖子:如何评价天工大模型技术报告中指出很多大模型用领域内数据刷榜的现象?引起了大家的讨论。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
链接:https://www.zhihu.com/question/628957425
该研究来自昆仑万维的「天工」大模型研究团队,他们上个月底把一份技术报告发布在了预印版论文平台 arXiv 上。

论文链接:https://arxiv.org
/abs/2310.19341
论文本身是在介绍 Skywork-13B,这是天工的一个大型语言模型(LLM)系列。作者引入了使用分段语料库的两阶段训练方法,分别针对通用训练和特定领域的增强训练。
和往常有关大模型的新研究一样,作者表示在流行的测试基准上,他们的模型不仅表现出色,而且在很多中文的分支任务上取得了 state-of-art 水平(就是业内最佳)。
重点是,该报告还验证了下很多大模型的真实效果,指出了一些其他一些国产大模型存在投机取巧的嫌疑。说的就是这个表格 8:

在这里,作者为了验证目前业内几个常见大模型在数学应用问题基准 GSM8K 上的过拟合程度,使用 GPT-4 生成了一些与 GSM8K 形式上相同的样本,人工核对了正确性,并让这些模型在生成的数据集,和 GSM8K 原本的训练集、测试集上比了比,计算了损失。然后还有两个指标:

Δ1 作为模型训练期间潜在测试数据泄漏的指标,较低的值表明可能存在泄漏。没有用测试集训练,那数值应该为零。

Δ2 衡量数据集训练分割的过度拟合程度。较高的 Δ2 值意味着过拟合。如果没有用训练集训练过,那数值应该为零。
用简单的话来解释就是:如果有模型在训练的时候,直接拿基准测试里面的「真题」和「答案」来当学习资料,想以此来刷分,那么此处就会有异常。
好的,Δ1 和 Δ2 有问题的地方,上面都贴心地以灰色突出显示了。
网友对此评论道,终于有人把「数据集污染」这个公开的秘密说出来了。
也有网友表示,大模型的智力水平,还是要看 zero-shot 能力,现有的测试基准都做不到。

图:截图自知乎网友评论
在作者与读者中互动中,作者也表示,希望「让大家更理性看待刷榜这个事情,很多模型和 GPT4 的差距还很大」。

图:截图自知乎文章 https://zhuanlan.zhihu.com/p/664985891
其实,这并不是一时的现象。自从有了 Benchmark,此类问题时常会有发生,就像今年 9 月份 arXiv 上一篇极具嘲讽意味的文章标题指出的一样 Pretraining on the Test Set Is All You Need。

除此之外,最近人民大学、伊利诺伊大学香槟分校一个正式研究同样指出了大模型评估中存在的问题。标题很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:

论文链接:https://arxiv.org/abs/2311.01964
Voicepods
Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。
142
查看详情
论文指出,当前火热的大模型领域让人们关心基准测试的排名,但其公平性和可靠性正在受到质疑。其中主要的问题就是数据污染和泄露,这样的问题可能会被无意识地触发,因为我们在准备预训练语料库时可能不知道未来的评估数据集。例如,GPT-3 发现预训练语料库中包含了 Children's Book Test 数据集,LLaMA-2 的论文曾提到提取了 BoolQ 数据集中的上下文网页内容。
数据集是需要很多人花费大量精力收集、整理和标注的,优质的数据集如果优秀到能被用于评测,那自然也有可能会被另一些人用于训练大模型。
另一方面,在使用现有基准进行评估时,我们评测的大模型的结果大多是通过在本地服务器上运行或通过 API 调用来获得的。在此过程中,没有严格检查任何可能导致评估绩效异常提高的不当方式(例如数据污染)。
更糟糕的是,训练语料库的详细组成(例如数据源)通常被视为现有大模型的核心「秘密」。这就更难去探究数据污染的问题了。

也就是说,优秀数据的数量是有限的,在很多测试集上,GPT-4 和 Llama-2 也不一定就没问题。比如在第一篇论文中提到的 GSM8K,GPT-4 在官方 technical report 里提到过使用了它的训练集。
你不是说数据很重要吗,那么用「真题」刷分的大模型,性能会不会因为训练数据更优秀而变得更好呢?答案是否定的。
研究人员实验发现,基准泄漏会导致大模型跑出夸张的成绩:例如 1.3B 的模型可以在某些任务上超越 10 倍体量的模型。但副作用是,如果我们仅使用这些泄露的数据来微调或训练模型,这些专门应试的大模型在其他正常测试任务上的表现可能会受到不利影响。
因此作者建议,以后研究人员在评测大模型,或是研究新技术时应该:
最后想说,好在这个问题开始逐渐引起大家的关注,无论是技术报告、论文研究还是社区讨论,都开始重视大模型「刷榜」的问题了。
对此,你有什么看法与有效建议呢?
以上就是大模型走捷径「刷榜」?数据污染问题值得重视的详细内容,更多请关注其它相关文章!
# 数据
# 天工大模型
# llama
# 模型
# 优化网站公司怎么样找
# 潼南网站建设推荐
# 新乡站群营销推广优化
# 皮卡产品上市营销推广
# 艺术漆店铺如何推广营销
# 灯塔品牌网站建设
# 淘宝为什么做营销推广不好
# 穿搭网站域名推广
# 网站seo季度报告
# seo平台就找15火星
# 真题
# 伊利诺伊
# 这个问题
# 很多人
# 丰田
# 也有
# 中国科学院
# 天工
# 走捷径
# 污染问题
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
创新科学家成功研发FAST激光靶标维护机器人
AI室内设计软件流行,室内设计行业如何应对效率变革
12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词
人工智能快速发展 打开就业新空间
谷歌在人工智能领域没有“护城河”?
小米又拿下国际比赛第一:AI翻译立功
VR健身应用《FitXR》将取消Quest 1端会员服务
如何利用物联网技术提高企业生产线智能化水平,提升生产效率
“木头姐”:特斯拉的人工智能训练——“赢家通吃”的机会
上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破
闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景
苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景
如何用AI开创智慧能源新时代?固德威正让能源“通人性”!
猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行
两型无人机完成交付!国家级机动观测业务正式启动
“苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线
微软在德国举办MR研讨会,向女性分享元宇宙潜力
亚马逊确认今年不举办re:MARS人工智能大会
特斯拉门店可能启动机器人卖车?也许不是你想的那样
华为推出两款商用 AI 大模型存储新品,支持 1200 万 IOPS 性能
13 个提高生产力的 AI 工具
生活垃圾智能分类机器人社区展“才能”,征求居民意见
一公司推出喷火机器狗,可喷出 9 米长火焰
Ai智能机器人,chat-免注册登入,直接使用新版gpt4.0!
曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购
遵义市首次引入手术机器人,成功实施全膝关节置换术
一文读懂自动驾驶的激光雷达与视觉融合感知
值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴
剧透!蜜小豆@2025世界人工智能大会多个亮点曝光
塑造全能智能管家:华为小艺AI加成应对大模型挑战
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
人工智能在重症监护室的未来
掌阅科技入选北京市通用人工智能产业创新伙伴计划第二批成员名单
周鸿祎:360智脑开放API接口 AI大模型将赋能百行千业
探索人工智能和物联网的动态融合
腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能
人工智能在项目管理中的作用
农业产业升级:AI驱动的“崃·见田”开启农田未来展望
上海发布大模型政策 打造AI“模”都
学而思推出AI第一课:基于自研大模型的AIGC课程
世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单
国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功
史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万
如布科技发布新产品AI口袋学习机S12
字节、网易相继入局,AI之后大厂又找到下一个风口?
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
为了避免人工智能可能带来的灾难,我们要向核安全学习
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型