400 128 6709

行业新闻

CREATOR制造、使用工具,实现LLM「自我进化」

发布时间:2023-06-12点击次数:

自古以来,工具的使用被视为区分人与其他物种的一大区别,也被视为是智能的一种根本体现。而当下,人工智能已不再局限于对工具的简单使用,它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上,这代表着当下大模型已经能够掌握更高层次的抽象思维认知,并将其与具象思维划分,共同解决问题;而在能力上,工具创造的出现也意味着模型已经能够从 “学习” 中蜕变,去运用已知 “创造” 未来的无限可能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CREATOR制造、使用工具,实现LLM「自我进化」

  • 论文链接:https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年来,大规模语言模型(Large Language Models)取得了显著的研究进展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习(In-Context Learning)、代码生成(Code Generation)和各种其他自然语言处理任务方面表现出色,将模型的潜力进一步推向了通用人工智能。

尽管大模型在这些取得了巨大的成功,其当下仍然存在很多短板,包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性,在题干逻辑复杂时推理能力不稳定等等。针对这些短板,研究者开始致力于向当前模型架构中引入对外部资源的利用能力,例如引入计算器,问答系统,维基百科等等外部知识源,来增强模型能力。这一系列研究奠定了模型工具学习(Tool Learning)能力的基础。

然而,当下研究中利用的外部工具数量仍然有限,而在潜在的新任务类型几乎是无尽的。因此,在面对新的问题类型时,很难找到现有的适合解决问题的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担,并需要较高的学习成本

因此,研究团队提出了全新的一种研究范式:工具创造(Tool Creation)。其不再是简单利用大模型使用工具的能力,而是加入了全新的工具创造模块,让模型针对所面对的问题进行工具创造并寻求解决方案。

利用大模型创造工具能够提高工具的普适性、可复用性和多样性,超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担,并解耦其进行抽象推理(创建可推广的具有普适性的工具)和具象推理(根据工具实现细节和工具使用文档进行决策)的能力。同时,该框架下模型以代码作为工具创造的媒介,这使得模型对于错误更加敏感,并能根据工具创造与使用中的问题进行回溯与修正

CREATOR制造、使用工具,实现LLM「自我进化」

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力

CREATOR 研究框架

大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段:

  • 创造(Creation):运用大模型对于问题的抽象推理能力,通过代码有针对性性地创造所需工具以及其使用说明。
  • 决策(Decision):运用大模型对于问题的具象推理能力,决策如何调用工具来解决当前问题。
  • 执行(Execution):根据创造的工具以及决策内容,进行决策的执行,并捕获执行过程中的输出信息。
  • 修正(Rectification):运用大模型对于错因推理以及自我修复的能力,对执行阶段捕捉到的问题进行修复。

CREATOR制造、使用工具,实现LLM「自我进化」

大模型进行工具创造与决策的流程框架

大模型首先将根据问题创造所需要的工具以及其相关使用说明;此后,问题内容以及工具信息将同时再次返回给大模型,用以决策针对本问题的解决方案,以及如何使用这些工具。此后,模型将根据执行情况对工具及决策做出调整,以更好地适应问题并寻求解答。

整个工具创造框架灵活运用了大模型的不同思维能力:提取问题关键信息的抽象思维推理,根据任务实施方案决策的具象思维推理,以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链(Chain-of-Thought, CoT)中的思维混乱而导致的失败现象,有效提升了大模型对于任务的适应能力及表现。

CREATOR 实验评测

作者将 CREATOR 框架与当前的普通推理链方法(CoT),程序推理链方法(Program-of-Thought, PoT)以及没有创造的简单工具使用(Tool Use)进行了比对。同时,为了验证框架中剥离抽象推理与具象推理的有效性,作者还额外引入了整体工具创造(Tool Create - whole)作为基线,该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一,不再进行推理能力上的解耦。

CREATOR制造、使用工具,实现LLM「自我进化」

Creation Challenge 数据集问题,标准工具及决策示例

CREATOR制造、使用工具,实现LLM「自我进化」

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用

在数据集的选取上,作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题,而后者将问题与丰富的数据表结合,二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外,作者还额外引入了全新构建的 Creation Challenge 数据集,其中的问题都无法直接套用现有工具或者代码包解决,从而考验了模型进行工具创造的能力。

CREATOR制造、使用工具,实现LLM「自我进化」

CREATOR制造、使用工具,实现LLM「自我进化」

在 TabMWP 数据集以及 Creation Challenge 上 CREATOR 框架效果也显著更强

从实验结果看来,CREATOR 框架的推理结果要明显好于所有基线,尤其相对于标准的推理方法以及程序推理方法,均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上,作者还额外验证了在有创造什么样的工具的提示(hint)的情况下,模型将会对问题有着更强的解决能力。因此,提示与思维解耦这两点也成为了工具创造中的重要影响因素。

CREATOR制造、使用工具,实现LLM「自我进化」

不同方法针对任务难度的准确率统计

CREATOR制造、使用工具,实现LLM「自我进化」

在修正阶段的参与下效果的提升

Seede AI Seede AI

AI 驱动的设计工具

Seede AI 713 查看详情 Seede AI

除此之外,作者还验证了不同方法对于任务难度的变化曲线,以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明,CREATOR 框架面对有难度的问题能够保持更好的鲁棒性,以及修正阶段的参与能够让不仅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,证实了在实验中引入修正阶段的合理性与有效性。

工具创造的其他优势

在主实验之外,文章作者也着重探讨了工具创造的其他优势以及当下大模型工具创造能力的不同展现形式。既然是创造工具,那么作为工具的一大优势必定是其可复用性。作者也顺此思路进一步展示了工具的复用对于任务效果的提升。

作者设计了 300 条问题并三个一组分为了 100 组。其中每一组的三个问题虽然场景不同,但都涉及相同的核心知识(Core Knowledge),即同类问题。作者验证了将对于一个问题创造的工具用于一组问题中的所有场景,是否都能够有效解决并提升准确率。

CREATOR制造、使用工具,实现LLM「自我进化」

对于大模型创造的工具在其他问题上迁移,能够有效提高准确率

实验统计表明将模型创造的正确可用的工具迁移到其他同类问题场景,能够有效提升问题解决的正确率。这即表明大模型创造的工具具有良好的可复用性,对于同类问题也有着良好的普适性。

除此之外,作者还展示了大模型进行工具创造的三个维度:对已有工具进行封装以实现不同目的,将不同工具进行组合实现目标功能,以及进行层次化的工具创建。这三个维度由低到高展示了当下大模型工具创造的能力,而这些能力也帮助大模型能够更高效地适应不同场景。

CREATOR制造、使用工具,实现LLM「自我进化」

大模型进行工具创造的三个维度

总结

CREATOR 框架通过工具创造实现了大模型抽象与具象思维能力的解耦,是继工具学习之后,对模型能力边际探索的又一大突破。相信未来的更多研究将会以此为基础,继续在工具的使用与创造上不断证明与增强模型潜力,为我们带来更多惊喜。

文章主要作者

CREATOR制造、使用工具,实现LLM「自我进化」


钱成,清华大学大三年级本科生,THUNLP 实验室成员,导师刘知远。目前研究方向包括大模型预训练,大模型高效微调,以及工具学习等领域。曾获清华大学计算机综合优秀奖学金,并以共同一作身份在 EMNLP,ACL 等国际会议中发表论文。

个人主页:https://qiancheng0.github.io/

以上就是CREATOR制造、使用工具,实现LLM「自我进化」的详细内容,更多请关注其它相关文章!


# 框架  # chatgpt  # llama  # 解决问题  # 研究  # 消时乐新营销推广  # 网站建设商店怎么做  # SEO和链接  # 招聘网站的推广  # seo文档优化  # 布吉网站建设公司官网  # 广发网站推广  # 镇江抖音营销推广项目合作  # 对网站进行推广  # seo教程文库  # 开源  # 中国  # 展示了  # 一大  # 而在  # 华为  # 更强  # 复用  # 门店 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了  令人惊叹!AI模型能够以iPhone照片为基础创作诗歌  你大脑中的画面,现在可以高清还原了  高质量数据推动AI场景化应用快速发展及落地  浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库  ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严  禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效  DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU  WHEE安装教程  英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练  腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作  生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用  Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲  绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器  苹果头显降临,AI虚拟人的救星还是流星?  人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!  南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台  百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要  搭载星火认知大模型 讯飞听见智慧屏开启AI办公新体验  从谷歌到亚马逊,科技巨头们的AI痴迷  工业机器人及非标自动化设备集成服务提供商  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC  人手一部「*」!视频版Midjourney免费可用,一句话秒生酷炫大片惊呆网友  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组  谷歌在人工智能领域没有“护城河”?  国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用  超级智能到底是什么?  网易加速行业AI大模型应用,将覆盖100多个应用场景  深圳人工智能企业超1900家  微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出  扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身  华为云天筹AI求解器荣获世界人工智能大会最高奖  第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》  人形机器人概念集体爆发,能买吗?  游族AI创新院揭牌成立 推进AI赋能游戏业务  厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay  GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群  人工智能行业急缺人 AI人才年薪能达近42万元  电力人工智能数据集目录首次发布  MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码  花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?  小岛秀夫不反对使用AI 但认为人类应该凌驾于AI  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  映宇宙集团执行总编辑:元宇宙还是要以人为媒介  AI+游戏首度大范围公布实际应用成果,AI全面来临还有多远?  中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6% 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司