发布时间:2024-09-21
点击次数: ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

编辑 | KX
AI 已广泛用于药物发现和材料设计中的分子筛选。当前的自监督分子预训练方法往往忽略了分子的基本化学特性和物理原理。
为了解决这个问题,来自清华大学的研究人员提出了一种称为分数去噪(Fractional denoising,Frad)的分子预训练框架,以学习有效的分子表示。通过这种方式,噪声变得可自定义,允许纳入化学先验,从而大大改善分子分布建模。
实验表明,Frad 始终优于现有方法,在力预测、量子化学特性和结合亲和力任务中,取得最先进的结果。改进的噪声设计提高了力准确性和采样覆盖范围,这有助于创建物理一致的分子表示,最终实现卓越的预测性能。
相关研究以「Pre-training with fractional denoising to enhance molecular property prediction」为题,于 9 月 18 日发布在《Nature Machine Intelligence》上。

论文链接:https://www.nature.com/articles/s42256-024-00900-z
AI 用于分子性质预测的挑战
分子性质预测是药物发现和材料设计等各个领域的一项关键任务。传统方法,包括第一性原理计算和湿实验室实验,需要巨大的成本,从而阻碍了具有所需特性的分子的高通量筛选。科学家认为深度学习方法可以降低成本和大幅加速筛选过程。
深度学习分子性质预测方法面临的主要困难是标记分子数据的稀缺性。为了缓解这一困难,已经提出了各种自监督分子预训练方法来利用未标记分子数据中的内在信息。
不幸的是,直接借用计算机视觉和自然语言处理中流行的预训练任务可能不适合分子,因为它们忽略了分子的基本物理原理。
相比之下,在预训练中应用去噪可以解释为等效的力学习,但有限的噪声分布会给分子分布带来偏差。这里的挑战在于有效地模拟全面的分子分布,同时保留力学习的基本物理解释。
Frad:分数去噪的分子预训练框架
鉴于模拟真实分子分布的难度,清华团队选择通过将有关分子分布的化学先验引入噪声设计来更全面地表征分布,由于噪声分布的限制,这在以前的方法中是被禁止的。
因此,研究人员提出了一种称为分数去噪(Frad)的分子预训练框架,证明其具有力学习解释。
具体而言,给定一个平衡分子构象,添加化学感知噪声(CAN)和坐标高斯噪声(CGN)的混合噪声并获得噪声构象。训练模型以从噪声构象中预测 CGN。「分数」(fractional)是指恢复引入的全部噪声的一小部分。特别是,CAN 是可定制的,使 Frad 能够结合化学先验来优化分子分布建模。
受描述分子构象变化的化学先验的启发,研究人员提出了两个版本的 CAN。具体来说,旋转噪声(RN)被用来捕捉单键的旋转,而振动和旋转噪声(VRN)被用来反映各向异性的振动。
Frad 框架的整个流程如下图所示。给定一个平衡分子构象 xeq,添加 CAN 和 CGN 的混合,其中平衡构象是指分子势能面局部最小值处的结构。
然后,训练模型从噪声构象(即 Frad)中预测 CGN,因为它恢复了一部分引入的噪声。具体来说,利用等变图神经网络 (GNN) 从噪声构象中提取特征,然后噪声预测头根据这些特征预测 CGN。
研究使用 TorchMD-NET 作为骨干模型,从 3D 分子输入中获得等变特征。具体来说,理论分析表明,无论 CAN 分布如何,该任务都具有力学习解释,而 CAN 分布会影响力目标和采样分布。因此,精心设计 CAN 以与真实的分子构象分布保持一致,与现有的去噪方法相比,可以实现更精确的力目标和更广泛的采样分布。
在微调过程中,研究人员从预训练权重初始化等变 GNN,随后为每个单独的下游任务量身定制不同的属性预测头。预训练的 GNN 权重以及预测头中的参数在下游标签的监督下继续更新。


图示:Frad 框架概述。(来源:论文)
Remover
几秒钟去除图中不需要的元素
304
查看详情
Frad 提升了性质预测性能
为了评估 Frad 在预测分子性质方面的有效性,进行了一系列具有挑战性的下游任务,包括原子级力预测、分子级量子化学性质预测和蛋白质-配体复合物级结合亲和力预测。
Frad 模型与已建立的基线进行了系统比较,包括预训练方法以及未经预训练的性质预测模型。
原子级力预测
首先,评估了 Frad 在各种分子动力学数据集(即 MD17、ISO17 和 MD22)中预测力的表现。
Frad 在八种分子中的七种上的表现都优于基线。特别是与 Frad 方法具有相同主干的去噪预训练方法,即 3D-EMGP 和 Coord 相比,Frad 的优越性显而易见。这凸显了在去噪中引入化学先验以准确模拟分子分布
的必要性。在训练集的大小有限的情况下,Frad 预训练始终能大幅度增强主干模型 TorchMD-NET,表明 Frad 有效地学习了分子的内在原理并具有出色的泛化能力。
对于大训练集设置中的苯,在 Frad 的微调过程中出现了过拟合现象,而这在其他分子中并没有观察到。这可能是由于苯的结构相对固定,导致低维特征容易出现过拟合。
ISO17 和 MD22 上的结果如表 1 所示。骨干模型 TorchMD-NET 的性能通过 Frad 预训练不断提高。

分子级量子化学性质预测
为了验证 Frad 是否能在不同性质上取得有竞争力的结果,研究人员在 QM9 数据集中的 12 个任务上评估了 Frad(RN) 和 Frad(VRN)。表 2 总结了 Frad 的结果以及预训练和监督基线。

总体而言,Frad 超越了监督和预训练方法,并在 12 个目标中的 9 个目标上取得了最先进的结果。此外,在 11 个目标上基于骨干模型 TorchMD-NET 取得了显著的改进,表明 Frad 预训练学到的知识对大多数下游任务都有帮助。
此外,在表格下半部分明显优于去噪预训练方法。特别是,Frad 在所有 12 个任务中都达到或超过了使用相同骨干 TorchMD-NET 的 Coord 方法的结果,表明引入的分布化学先验有助于多类性质。还注意到 VRN 和 VN 的性能相当。以此推测,对于 QM9 数据集中对输入构象不太敏感的任务(与力预测任务相比),各向异性振动噪声的建模可能并不重要。
复合物结合亲和力预测
蛋白质-配体结合亲和力 (LBA) 预测旨在预测蛋白质和配体之间的相互作用强度。研究人员在 ATOM3D 数据集中评估了 Frad 在 LBA 任务上的表现。
在 ATOM3D 预处理之后,Frad 从蛋白质中提取结合口袋,并利用口袋-配体复合物结构作为输入来预测结合亲和力值。结果显示在表 3 中。

Frad 击败了针对蛋白质表示量身定制的基于序列和基于结构的基线,表明 Frad 是一种适用于小分子和蛋白质的通用表示学习方法。预训练基线 SE(3)-DDM 不评估训练集和测试集之间涉及 60% 蛋白质序列同一性的分割设置,是一种等变 Coord 方法,可对成对原子距离上的高斯噪声进行去噪。同样,Frad 超越了传统的去噪方法,再次表明了引入化学先验的重要性。
未来工作
未来研究的几个探索方向如下:
通过这些改进,Frad 有可能成为适用于各种分子任务的强大分子基础模型。从而催化药物发现和材料科学等领域的突破。
以上就是原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊的详细内容,更多请关注其它相关文章!
# 清华
# 湖南seo策划
# 上海壹起航网站推广
# 分类网站发帖推广
# 网站怎样推广海报
# 绵阳市网站建设
# 所示
# 适用于
# 是指
# 有可能
# 子类
# 是一种
# 各向异性
# 有效地
# 提出了
# 理论
# APP营销推广代理
# 上海企业网站优化方法
# 滁州网站建设美丽
# 网易云音乐推广网站
# 邢台谷歌外贸网站推广
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
AMD在ChinaJoy展示全新的锐龙AI笔记本,开创了人工智能领域的新时代!
大疆 Air 3 无人机售价和实物照片曝光
泗洪:畅通城市“血管” ,管下机器人来帮忙
OpenAI首席执行官表态支持欧盟AI监管
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
RoboNeo什么时候上线
了解 AGI:智能的未来?
日新月异,脑机接口技术都有哪些新应用?
图灵奖得主Hinton:我已经老了,如何控制比人类更聪明的AI交给你们了
RoboNeo操作教程
微软AR/VR专利提出使用时间复用谐振驱动产生双极性电源
助力人工智能产业高质量发展 龙岗区算法训练基地正式启用
微幼科技晨检机器人与人工晨检相比,有何优势
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
金山办公宣布与英伟达团队合作,加速WPS AI服务
人工智能即将进入Windows:企业准备好安全策略设置了吗?
Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话
基于信息论的校准技术,CML让多模态机器学习更可靠
AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!
微软推出人工智能模型 CoDi,可互动和生成多模态内容
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了
金山办公:AI是重要的产品战略之一
本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!
“风乌”气象大模型科学家团队:用AI预报极端天气未来不是梦!
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
AI和ML推动联网设备的增长
30+大模型齐聚,大模型成世界人工智能大会“顶流”
浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库
首届全国体育人工智能大会在首都体育学院召开
上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破
上影节直击 | AI技术降低了短片拍摄门槛?金爵奖评委不赞同
AI赋能艺术 超现实达利奇幻之旅在沪开启
借力AI!PCB全球巨头,有爆发潜质吗?
微软Bing聊天机器人电脑端即将支持语音提问
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
阿里达摩院向公众免费开放100项AI专利许可
Meta发布"类人"AI图像创建模型,能解决多出手指等Bug
创新全场景清洁方案!海尔商用机器人首发上市
击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞
抖音在Android平台获得VR|直播|软件著作权
插画师对AI绘画软件的态度是怎样的?
世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相
阿里达摩院发布免费开放100项AI专利许可的动机是什么?
自然语言生成在智能家居设备中的应用
掌阅科技入选北京市通用人工智能产业创新伙伴计划第二批成员名单
消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款
贫穷让我预训练
腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣