400 128 6709

行业新闻

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

发布时间:2024-02-29点击次数:

腾讯的研究团队进行了一项关于agent的可拓展性的研究。他们发现,通过简单的采样投票,大型语言模型(llm)的性能随着实例化agent数量的增加而增强。这项研究首次在各种场景中验证了这一现象的普遍性,并与其他复杂方法进行了对比,探讨了这一现象背后的原因,并提出了进一步发挥scaling效应的方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

  • 论文标题:More Agents Is All You Need

  • 论文地址:https://arxiv.org/abs/2402.05120

  • 代码地址:https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中,来自腾讯的研究者发现:只需通过一种简单的采样投票法,大语言模型的性能就会随着实例化 agent 的数量的增大而增强,呈现scaling property(可拓展性),无需复杂的多 LLM agents 协作框架以及prompt工程方法的加持。此外,该方法与现有的复杂方法正交,结合之后,可进一步增强 LLM,其增强程度与任务难度相关。该论文做了第一个关于 raw agent(指不依赖复杂的prompt工程和协作框架的LLM agent)的 scaling property 的研究,其对各种 LLM 基准进行了全面的实验,以验证此发现的普遍性,并研究了可以促进其发生的策略。目前代码已开源。
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
                                    多个小模型超过大模型

论文详细探讨了多种集成LLM的相关研究,其中包括LLM的自集成、异构LLM的集成,以及多个LLM代理协作框架的研究。通过与提出的方法进行对比,可以看出论文进行了更为全面的研究和分析。

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
为了研究大型语言模型的性能如何随着实例化 agents 数量的增加而提升。论文使用了一种简单的采样和投票方法(作者用了 simple (st) 的说法,可见他们认为这个方法也许是最简单的方法之一)。值得注意的是,此方法可与现有的复杂方法正交结合。它可以被分为两个阶段:

  • 将任务 query 输入到单个 LLM 或多个 LLM Agents 协作框架中,生成多个输出;
  • 通过多数投票确定最终结果
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
论文从 Llama2 和 GPT 系列选择不同规模的语言模型进行评估,任务数据集涵盖推理和生成等多个领域。实验结果表明,在所有任务和不同种类、规模的 LLM 上,发现 LLM 的性能随着实例化 agent 的数量而增加。

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

例如,在 GSM8K 任务上提升了 12% 至 24%,在 MATH 上提升了 6% 至 10%。有趣的是,多个小 LLM 集成可以达到甚至超越较大 LLM 的性能。例如,多个 Llama2-13B 的集成在 GSM8K 上达到了 59% 准确率,超过了单一 Llama2-70B 的 54% 的准确率。

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 看详情 Machine Translation
进一步地,作者还探索了与其他方法的兼容性。尽管这些方法实现各不相同,但是在与之结合使用时,性能可以进一步提升,并同样符合实例化 agent 越多,性能增益越强的现象。实验结果显示增益范围从 1% 到 27% 不等,说明这个简单的方法通过和其他方法正交使用可以进一步增强 LLM 的性能。
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

                                   基于 LLama13B

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

                                 基于 LLama70B

数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好

                              基于 GPT-3.5-Turbo

此外,论文还分析了性能提升与问题难度之间的关系。

  • 固有难度:随着任务固有难度的增加,性能提升(即相对性能增益)也会增加,但当难度达到一定程度后,增益会逐渐减少。这表明在任务过于复杂时,模型的推理能力可能无法跟上,导致性能提升的边际效应递减。
  • 步骤数量:随着解决任务所需的步骤数量增加,性能提升也会增加。这表明在多步骤任务中,通过增加 agent 数量可以帮助模型更好地处理每一步,从而整体提高任务的解决性能。
  • 先验概率:正确答案的先验概率越高,性能提升越大。这意味着在正确答案更有可能的情况下,增加 agent 数量更有可能带来显著的性能提升。
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
节点:步骤,虚线:可能的替代步骤。节点的深度:步骤的数量,颜色的强度:固有难度的水平。图示帮助读者理解任务的复杂性是如何通过这些维度来衡量的。

基于此,论文提出了两种优化策略来进一步提升方法的有效性:

  • 逐步采样和投票(Step-wise Sampling-and-Voting):这种方法将任务分解为多个步骤,并在每个步骤中应用采样和投票,以减少累积错误并提高整体性能。
  • 分层采样和投票(Hierarchical Sampling-and-Voting):这种方法将低概率任务分解为多个高概率子任务,并分层解决,同时可以使用不同模型来处理不同概率的子任务以降低成本。
    数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
最后,提出了未来的工作方向,包括优化采样阶段以降低成本,并继续开发相关机制来减轻 LLM 幻觉(hallucinations)的带来的潜在负面影响,确保这些强大模型的部署既负责任又有益。

以上就是数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好的详细内容,更多请关注其它相关文章!


# 工程  # 地方网络营销推广计划书  # yoast seo安装提示500  # 也会  # 开源  # 这一  # 的是  # 进行了  # 飞星  # 多个  # 越好  # 越多  # llama  # 腾讯  # 肥西网站优化公司去哪找  # 录音棚营销推广方案策划  # 聊城新媒体营销推广  # 贵州企业培训网站建设  # 体彩推广营销方案怎么写  # 武城小企业网站建设  # 重庆seo咨询  # 菏泽好的网站优化与推广 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要  科普:什么是AI大模型  郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会  云南首例达芬奇机器人微创心脏手术成功开展  Unity 内测 Safe Voice 服务,利用 AI 自动识别玩家不当聊天内容  AI 作画工具 Midjourney 推出“pan”功能,可平移扩展图片外场景  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄!  月薪6万,哪些AI岗位在抢人?  2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  如何用Transformer BEV克服自动驾驶的极端情况?  Meta 推出 Quest 超级分辨率技术,让 VR 画面更清晰  从谷歌到亚马逊,科技巨头们的AI痴迷  苹果式 AI 哲学:不着一字,处处落子  如何用AI重塑你的工作流(一)  遵义市首次引入手术机器人,成功实施全膝关节置换术  一图速览 | 十大脑机接口关键技术发布  携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐  发布最新版本的 PICO OS 5.7.0:支持VR头盔录屏并跨平台分享至微信  AI与5G的强强联合:唤醒数字时代的无尽潜能  音乐制作元工具AudioCraft发布开源AI工具  MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑  如何利用AI工具写好本科论文:科技助你一臂之力  2025世界人工智能大会(上海)开幕式纪要  阿里云AI绘画创作大模型通义万相发布 已开启定向邀测  有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名  天翼云在国际AI顶会大模型挑战赛中获得冠军  12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词  中国移动副总经理高同庆:打造人工智能时代的智能服务运营新范式  西班牙小鲜肉*视频在网上疯传,本人发文澄清:是AI换脸的假视频!  RoboNeo安装教程  配 3D 机器人头像,谷歌展示全新安卓 LOGO  水路两栖艇、消防灭火机器人……这个展览“黑科技”抢眼  世界人工智能大会上,科大讯飞宣布与华为联手  iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了  深度学习模型综述:用于3D MRI和CT扫描的应用  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  贫穷让我预训练  Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月  SnapFusion技术大幅提升AI图像生成速度  2025智源大会AI安全话题备受关注,《人机对齐》新书首发  当人工智能开始写高考作文?作家陈崇正、朱山坡谈文学与未来  华为发布大模型时代AI存储新品  重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  测试框架-安全和自动驾驶  WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相  前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来! 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司