400 128 6709

行业新闻

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

发布时间:2024-02-04点击次数:

Transformer的技能树是越来越厉害了。

来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员,最近发表了一篇论文,他们通过使用大型语言模型,成功地实现了自动生成完整定理证明的目标。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

论文地址:https://arxiv.org/pdf/2303.04910.pdf

这篇工作以Baldur(北欧神话中雷神Thor的兄弟)命名,首次证明了Transformer可以生*证明,还表明在为模型提供额外上下文时,可以改进模型先前的证明。

该论文在2025年12月的ESEC/FSE(ACM欧洲软件工程联合会议和软件工程基础研讨会)上发表,并荣获杰出论文奖。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

众所周知,软件中不可避免地存在着bug,这对一般应用程序或网站来说可能不会带来太大问题。然而,对于关键系统背后的软件,如加密协议、医疗设备和航天飞机,我们必须确保没有任何错误。

——一般的代码审查和测试并不能给出这个保证,这需要形式验证(formal verification)。

对于formal verification,ScienceDirect给出的解释为:

the process of mathematically checking that the beh*ior of a system, described using a formal model, satisfies a given property, also described using a formal model

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

指的是从数学上检查,使用形式模型描述的系统行为,是否满足给定属性的过程。

简单来说就是,利用数学分析的方法,通过算法引擎建立模型,对待测设计的状态空间进行穷尽分析的验证。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

形式化软件验证,对于软件工程师来说是最具挑战性的任务之一。例如CompCert,使用Coq交互式定理证明器验证的C编译器,是无处不在的GCC和LLVM等使用的唯一编译器。

然而,手动形式验证(编写证明)的成本却相当巨大,——C编译器的证明是编译器代码本身的三倍以上。

所以,形式验证本身是一项“劳动密集型”的任务,研究人员也在探索自动化的方法。

比如Coq和Isabelle等证明助手,通过训练一个模型来一次预测一个证明步骤,并使用模型搜索可能的证明空间。

而本文的Baldur首次在这个领域引入了大语言模型的能力,在自然语言文本和代码上训练,并在证明上进行微调,

Baldur可以一次就生成定理的完整证明,而不是一次一个步骤。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

如上图所示,仅使用定理语句作为证明生成模型的输入,然后从模型中抽取证明尝试,并使用Isabelle执行证明检查。

如果Isabelle接受了证明尝试而没有错误,就说明证明成功;否则从证明生成模型中抽取另一个证明尝试。

Baldur在6336个Isabelle/HOL定理及其证明的基准上进行评估,从经验上证明了完整证明生成、修复和添加上下文的有效性。

另外,这个工具之所以叫Baldur,可能是因为当前最好的自动证明生成工具叫做Thor。

Thor的证明率更高(57%),它使用较小的语言模型结合搜索可能证明空间的方法预测证明的下一步,而Baldur的优势在于它能够生成完整的证明。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

不过Thor和Baldur两兄弟也可以一起工作,这样可能把证明率提升到接近66%。

自动生成完整证明

Baldur由Google的大语言模型Minerva提供支持,Minerva在科学论文和包含数学表达式的网页上进行训练,并对有关证明和定理的数据进行了微调。

Baldur可以与定理证明助手Isabelle合作,Isabelle对证明结果进行检查。当给定一个定理陈述时,Baldur几乎在41%的时间内能够生成一个完整的证明。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

为了进一步提高Baldur的性能,研究人员向模型提供了额外的上下文信息(比如其他定义、或理论文件中的定理陈述),这使证明率提高到47.5%。

这意味着Baldur能够获取上下文,并使用它来预测新的正确证明,——类似于程序员,当了解了相关方法和代码之后,他们更有可能修复程序中的错误。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

下面举个例子(fun_sum_commute定理):

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

这个定理来自形式证明档案中一个名为多项式的项目。

当人工编写证明的时候,会区分两种情况:集合是有限的或者不是有限的:

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

所以,对于模型来说,输入是定理陈述,而目标输出是这个人工编写的证明。

Baldur认识到这里需要归纳,并应用了一种特殊的归纳法则,称为infinite_finite_induct,遵循与人类书面证明相同的总体方法,但更简洁。

而因为需要归纳,Isabelle使用的Sledgehammer默认无法证明这个定理。

训练

为了训练证明生成模型,研究人员构建了一个新的证明生成数据集。

现有数据集包含单个证明步骤的示例,每个训练示例包括证明状态(输入)和要应用的下一个证明步骤(目标)。

给定一个包含单个证明步骤的数据集,这里需要创建一个新数据集,以便训练模型一次预测整个证明。

研究人员从数据集中提取每个定理的证明步骤,并将它们连接起来以重建原始证明。

证明修复

还是以上面的fun_sum_commute为例,

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

Baldur首次生成的证明尝试,在证明检查器中失败。

Baldur试图应用归纳法,但未能首先将证明分解为两种情况(有限集与无限集)。Isabelle返回以下错误消息:

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

为了从这些字符串中派生出一个证明修复训练示例,这里将定理陈述、失败的证明尝试和错误消息连接起来作为输入,并使用正确的人工编写的证明作为目标。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

上图详细介绍了训练数据的创建过程。

使用证明生成模型,针对原始训练集中的每个问题,对温度为0的证明进行采样。

使用校对助手,记录所有失败的校样及其错误消息,然后,继续构建新的证明修复训练集。

对于每个原始训练示例,将定理语句、证明生成模型生成的(不正确的)候选证明以及相应的错误消息连接起来,以获得新训练示例的输入序列。

添加上下文

在定理陈述之前添加理论文件的行,作为额外的上下文。比如下图这样:

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

Baldur中带有上下文的证明生成模型,可以利用这些附加信息。出现在fun_sum_commute定理语句中的字符串,在这个上下文中再次出现,因此围绕它们的附加信息可以帮助模型做出更好的预测。

上下文可以是陈述(定理、定义、证明),还可以是自然语言注释。

为了利用LLM的可用输入长度,研究人员首先从同一个理论文件中添加多达50个语句。

在训练过程中,首先对所有这些语句进行标记化,然后截断序列的左侧以适应输入长度。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

上图展示了有上下文和无上下文的生成模型的证明成功率与证明尝试次数的关系图。我们可以看出,具有上下文的证明生成模型始终优于普通生成模型。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

上图展示了不同尺寸和温度模型的已验证定理与推理成本之比。

我们可以看到生成模型的证明成功率,以及8B模型和62B模型的上下文与证明尝试次数的关系。

具有上下文的62B证明生成模型优于具有上下文的8B模型。

不过,作者在这里强调,由于这些实验的成本较高,他们也无法调整超参数,62B模型如果经过优化可能会表现得更好。

以上就是陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好的详细内容,更多请关注其它相关文章!


# 软件  # 永泰公司seo技术支持  # 宬人网站建设总结模板  # 深圳工程网站建设推广  # 两种  # 上图  # 在这个  # 自然语言  # 首次  # 软件工程  # 开源  # 直呼  # 越好  # 看了  # ai  # 韶关网站优化推广效果好  # 英文工厂网站建设  # 江油pc网站建设费用  # 泰安网站建设名单  # 泉州seo如何做  # 营销推广涉及的理论基础  # 网站建设开发设计公司 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 人手一部「*」!视频版Midjourney免费可用,一句话秒生酷炫大片惊呆网友  周星驰支持的人工智能与 Web3 初创公司 Moonbox 完成 100 万美元融资  AI成政客博弈工具,美国大选真假难辨,律师们的生意来了  人工智能如何与智能家居集成  贫穷让我预训练  AI进军债券交易,BondGPT来了!  令人震惊的特斯拉机器人  腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会  XREAL Beam 投屏盒子正式发布:支持“可悬停 AR 空间屏”  360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶  为AI而服务设计:构建以人为本的AI创新方法  工业机器人及非标自动化设备集成服务提供商  全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人  一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命  特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会  郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸  阿里云连续两年进入Gartner云AI开发者“挑战者象限”  陈丹琦ACL学术报告来了!详解大模型「*」数据库7大方向3大挑战,3小时干货满满  为了避免人工智能可能带来的灾难,我们要向核安全学习  找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?  上天下海登极,青岛与昇腾AI握手一起探索星辰大海  OpenAI宣布组建新团队 以控制“超级智能”人工智能  广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建  脑虎科技:奔跑在“脑机接口”最前沿 跨界融合取得阶段性成果  此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处  Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月  从谷歌到亚马逊,科技巨头们的AI痴迷  元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?  美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  彬州市第三届青少年机器人创新大赛成功举办  丰田汽车研究院推出生成式人工智能汽车设计工具  “可用”“有用”的讯飞星火认知大模型将亮相世界人工智能大会  上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  AI大模型时代,数据存储新基座助推教科研数智化跃迁  配 3D 机器人头像,谷歌展示全新安卓 LOGO  英伟达的AI领域垄断地位:一直无法撼动吗?  商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行  微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品  编程版GPT狂飙30星,AutoGPT危险了!  提高开发效率:AmazonCodeWhisperer与Amazon Glue的集成和生成式AI的应用  插画师对AI绘画软件的态度是怎样的?  AI赋能艺术 超现实达利奇幻之旅在沪开启  大模型新品出现井喷,AI产业迎来新时代  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  人工智能如何用于家庭安全  百亿量化私募:量化投资进入“精耕细作”时代 AI带来行业新变革 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司