输入“/”快速插入内容

AI 小分子药物发现的「百科全书」,康奈尔、剑桥、EPFL 等研究者综述登 Nature 子刊

2024年7月4日创建
机器之心 ScienceAI|阅读原文
转载请联系原作者取得授权
作者 | 康奈尔大学杜沅岂
编辑 | ScienceAI
随着 AI for Science 受到越来越多的关注,人们更加关心 AI 如何解决一系列科学问题并且可以被成功借鉴到其他相近的领域。
AI 与小分子药物发现是其中一个非常有代表性和很早被探索的领域。分子发现是一个非常困难的组合优化问题(由于分子结构的离散性)并且搜索空间非常庞大与崎岖,同时验证搜索到的分子属性又十分困难,通常需要昂贵的实验,至少是至少是模拟计算、量子化学的方法来提供反馈。
随着机器学习的高速发展和得益于早期的探索(包括构建了简单可用的优化目标与效果衡量方法),大量的算法被研发,包括组合优化,搜索,采样算法(遗传算法、蒙特卡洛树搜索、强化学习、生成流模型/GFlowNet,马尔可夫链蒙特卡洛等),与连续优化算法,贝叶斯优化,基于梯度的优化等。同时现有较为完备的算法衡量基准,比较客观公平的比较方式,也为开发机器学习算法开拓了广阔的空间。
近日,康奈尔大学、剑桥大学和洛桑联邦理工学院(EPFL)的研究人员在《 Nature Machine Intelligence 》发表了题为《 Machine learning-aided generative molecular design 》的综述文章。
该综述回顾了机器学习在生成式分子设计中的应用。药物发现和开发需要优化分子以满足特定的理化性质和生物活性。然而,由于搜索空间巨大和优化函数不连续,传统方法既昂贵又容易失败。机器学习通过结合分子生成和筛选步骤,进而加速早期药物发现过程。
图示:生成式 ML 辅助分子设计流程。
生成性分子设计任务
生成性分子设计可以分为两大范式:分布学习和目标导向生成,其中目标导向生成可以进一步分为条件生成和分子优化。每种方法的适用性取决于具体任务和所涉及的数据。
分布学习 (distribution learning)
分布学习旨在通过对给定数据集分子的概率分布建模来描述数据的分布,从而从学习到的分布中采样新分子 。
条件生成 (conditional generation)
属性条件生成 (property-conditioned generation):生成具有特定属性的结构,可以为一个文字的描述,或者一个具体属性的数值 。
分子子结构条件生成 (molecular (sub)structure-conditioned generation):生成具有特定结构约束的分子,例如设计部分结构、支架跳跃、连接子设计、重新设计整个结构(先导优化)或整个分子的条件生成(构象生成)。