发布时间:2024-08-22
点击次数: 
aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。
在这个「亩产八万斤」,「10 天一个 SoTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。
为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval
官方主页: https://lmms-lab.github.io/
论文地址: https://arxiv.org/abs/2407.12772
榜单地址:https://huggingface.co/spaces/lmms-lab/LiveBench
自 2025 年 3 月发布以来, LMMs-Eval 框架已经收到了来自开源社区、公司和高校等多方的协作贡献。现已在 Github 上获得 1.1K Stars,超过 30+ contributors,总计包含 80 多个数据集和 10 多个模型,并且还在持续增加中。

标准化测评框架
为了提供一个标准化的测评平台,LMMs-Eval 包含了以下特性:
统一接口: LMMs-Eval 在文本测评框架 lm-evaluation-harness 的基础上进行了改进和扩展,通过定义模型、数据集和评估指标的统一接口,方便了使用者自行添加新的多模态模型和数据集。
一键式启动:LMMs-Eval 在 HuggingFace 上托管了 80 多个(且数量不断增加)数据集,这些数据集精心从原始来源转换而来,包括所有变体、版本和分割。用户无需进行任何准备,只需一条命令,多个数据集和模型将被自动下载并测试,等待几分钟时间即可获得结果。
透明可复现:LMMs-Eval 内置了统一的 logging 工具,模型回答的每一题以及正确与否都会被记录下来, 保证了可复现性和透明性。同时也方便比较不同模型的优势与缺陷。
LMMs-Eval 的愿景是未来的多模态模型不再需要自行编写数据处理、推理以及提交代码。在当今多模态测试集高度集中的环境下,这种做法既不现实,测得的分数也难以与其他模型直接对比。通过接入 LMMs-Eval,模型训练者可以将更多精力集中在模型本身的改进和优化上,而不是在评测和对齐结果上耗费时间。
评测的「不可能三角」
LMMs-Eval 的最终目标是找到一种 1. 覆盖广 2. 成本低 3. 零数据泄露 的方法来评估 LMMs。然而,即使有了 LMMs-Eval,作者团队发现想同时做到这三点困难重重,甚至是不可能的。
Remover
几秒钟去除图中不需要的元素
304
查看详情
如下图所示,当他们将评估数据集扩展到 50 多个时,执行这些数据集的全面评估变得非常耗时。此外,这些基准在训练期间也容易受到污染的影响。为此, LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。


LMMs-Eval-Lite: 广覆盖轻量级评估

在评测大模型时,往往庞大的参数量和测试任务会使得评测任务的时间和成本急剧上升,因此大家往往会选择使用较小的数据集或是使用特定的数据集进行评测。然而,有限的评测往往会使得对于模型能力的理解有所缺失,为了同时兼顾评测的多样性和评测的成本,LMMs-Eval 推出了 LMMs-Eval-Lite

LMMs-Eval-Lite 旨在构建一个简化的基准测试集,以在模型开发过程中提供有用且快速的信号,从而避免现在测试的臃肿问题。如果我们能够找到现有测试集的一个子集,在这上面的模型之间的绝对分数和相对排名与全集保持相似,那么我们可以认为修剪这些数据集是安全的。
为了找到数据集中的数据显著点,LMMs-Eval 首先使用 CLIP 和 BGE 模型将多模态评测数据集转换为向量嵌入的形式并使用 k-greedy 聚类的方法找到了数据显著点。在测试中,这些规模较小的数据集仍然展现出与全集相似的评测能力。

随后 LMMs-Eval 使用了相同的方法制作了涵盖更多数据集的 Lite 版本,这些数据集旨在帮助人们节省开发中的评测成本,以便快速判断模型性能

LiveBench: LMMs 动态测试
传统基准侧重于使用固定问题和答案的静态评估。随着多模态研究的进展,开源模型在分数比较往往优于商用模型,如 GPT-4V,但在实际用户体验中却有所不及。动态的、用户导向的 Chatbot Arenas 和 WildVision 在模型评估中越来越受欢迎,但是它们需要收集成千上万的用户偏好,评估成本极高。
LiveBench 的核心思想是在一个不断更新的数据集上评估模型的性能,以实现零污染且保持低成本。作者团队从网络上收集评估数据,并构建了一条 pipeline,自动从新闻和社区论坛等网站收集最新的全球信息。为了确保信息的及时性和真实性,作者团队从包括 CNN、BBC、日本朝日新闻和中国新华社等 60 多个新闻媒体,以及 Reddit 等论坛中选择来源。具体步骤如下:
捕捉主页截图并去除广告和非新闻元素。
使用当前最强大的多模态模型(如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro)设计问题和答案集。由另一模型审查和修订
问题,确保准确性和相关性。
人工审查最终的问答集,每月收集约 500 个问题,保留 100-300 个作为最终的 \livebench 问题集。
采用 LLaVA-Wilder 和 Vibe-Eval 的评分标准 -- 评分模型根据提供的标准答案评分,得分范围为 [1, 10]。默认评分模型为 GPT-4o,还包括 Claude-3-Opus 和 Gemini 1.5 Pro 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。

未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据,以及在榜单上的最新评测的结果。
以上就是多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染的详细内容,更多请关注其它相关文章!
# 较小
# 益阳营销推广方式
# 南宁知名网站建设哪家好
# 纹绣营销推广话术文案
# 网站实战转化率优化
# 阿勒泰抖音关键词排名
# 生物行业网站建设开发
# 视频教程如何做网站推广
# 蒲江建设企业网站公司
# 濮阳seo优化广告创意
# 网站建设网站推广介绍怎么写
# 南洋
# 转换为
# 往往会
# 工程
# 榜单
# 是在
# 开源
# 多个
# 低成本
# 多模
# type
# opus
# claude
# gemini
# git
# 南洋理工大学
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
通用医疗人工智能如何革新医疗行业?
华为将于 7 月发布面向 AI 大模型的新款存储产品
普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄!
智能机器人正在彻底改变客户服务
智能手机应用中的人工智能的重要性
静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!
第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》
推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项
人工智能在商业中的风险和局限性
25个AI智能体源码现已公开,灵感来自斯坦福的「虚拟小镇」和《西部世界》
站在社会的高度理解人工智能
国网辉南供电:无人机空中巡检 全力护航端午佳节
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿
“思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化
500元一张的AI艺术二维码制作,详细教程来了!
微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价
行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用
ChatGPT会成为你家新的语音助手吗?
2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元
人工智能如何用于家庭安全
马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响
参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购
AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量
物联网和人工智能的协同作用:释放预测性维护的潜力
郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会
沐曦首款AI推理GPU亮相:INT8算力达160TOPS!
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
用AI技术点亮老照片:Deep Nostalgia带给照片新生动感
SnapFusion技术大幅提升AI图像生成速度
13 个提高生产力的 AI 工具
《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!
小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练
掌阅科技申请阅爱聊商标 掌阅科技申请AI相关商标
人工智能在项目管理中的作用
特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会
第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》
精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*
出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案
AMD在AI方面奋起直追,与英伟达的差距缩小了吗?
新闻传闻:迪士尼可能采用人工智能来控制电影制作成本
Meta Quest订阅服务每月7.99美元畅玩两款VR游戏应用
马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会
选对AI智能写作软件,让创作游刃有余!
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
大疆 DJI Mini 4 Pro 无人机曝光:流线设计,有望迎来功能性提升
V社谈AI制作游戏被ban:为确保开发者有素材所有权
机器人加速!稀土永磁也被带火,持续性如何?