输入“/”快速插入内容

利用大语言模型生成的伪数据进行低资源分子发现

2024年8月12日修改
哈工大SCIR|阅读原文
转载请联系原作者取得授权
📌
论文名称: From Artificially Real to Real: Leveraging Pseudo Data from Large Language Models for Low-Resource Molecule Discovery
论文作者:陈雨晗,席努瓦,杜晏睿,王昊淳,陈健宇,赵森栋*,秦兵
原创作者:陈雨晗
转载须标注出处:哈工大SCIR
背景及动机
分子发现在包括化学 (Wang et al. 2023b; Cuzzucoli Crucitti et al. 2023)、药理学 (Patani and LaVoie 1996; Anderson 2003) 和材料科学 (Curtarolo et al. 2013) 等多个科学领域发挥着关键作用。然而,传统的分子设计方法常常面临诸如高成本、漫长的开发过程和有限的成功率等挑战。例如,将一种新药推向市场可能需要超过十亿美元和十多年的开发时间 (Gaudelet et al. 2021)。
随着人工智能(AI)的出现,创新的跨模态方法正在引领合成和分析复杂分子结构的新方式,提高效率,并重塑计算化学和材料科学领域。Edwards et al. (2022) 提出了一种将分子直接翻译为相应标题的新方法,并能从自然语言文本生成分子结构,如图1所示。这种跨模态方法预示着,在未来通过简单的自然语言句子就可以实现特定分子的设计和研究。
图1 基于文本的分子生成与分子标注
为解决这些任务,许多研究者已经做出了各种尝试。MolT5 (Edwards et al. 2022) 使用 SMILES (Weininger 1988) 和分子描述分别进行掩码语言建模(MLM)(Raffel et al. 2020) 预训练。Liu et al. (2023) 通过将生物医学文献与分子结构表示相融合的序列进行因果语言建模(CLM)来预训练模型,这些序列是通过用它们的 SMILES 表示替换分子实体而得到的。然而,这些研究受到分子-描述对稀缺性的限制,使得直接的序列到序列(seq2seq)训练变得不可行。在 Christofidellis et al. (2023) 的研究中,下游数据集的注释数据被纳入预训练,尽管与未注释数据相比比例显著较低,但seq2seq训练的有效性显而易见。主要瓶颈在于注释过程本身:这些对的注释需要分子化学方面的专业知识,使得大规模人工注释既昂贵又困难。
受到自然语言处理(NLP)及相关领域大型语言模型(LLMs)巨大成功的启发 (Bagal et al. 2021; Frey et al. 2022; Ferruz, Schmidt, and Hocker 2022),我们提出通过使用由LLMs生成的人工实数据来缓解低资源难题。与源自真实实验或观测的“真实数据”不同,这种“伪数据”或“人工实数据”是人工制作的。尽管它模仿了真实数据的格式,但其内容并不反映实际的现实世界观测,因此可能不适合直接应用于现实世界。
方法
伪数据生成
高质量的伪数据是进一步探索的基础。在这里,我们提出了PseudoMD-1M,这是第一个由100万对分子-描述数据对组成的数据集。为了获得足够的数据,我们利用了大量未标记的分子,并使用大型语言模型(LLMs)来生成相应的描述。我们首先从PubChem (Kim et al. 2023) 收集了110万个未标注的分子的SMILES字符串。然后,我们采用严格的过滤程序,筛选出下游数据集中的SMILES,确保收集到的分子与真实数据集中的分子不重叠 (Edwards, Zhai, and Ji 2021; Zeng et al. 2022)。通过这样做,我们确保了不会意外地将真实数据集中的分子的任何补充信息纳入其中,从而保持了训练过程的完整性和独立性。利用ChatGPT API,我们为每个未标注的分子生成了包含关键方面如属性和结构特征的文本描述。为了提高生成描述的质量,我们实施了一个基于检索的提示范式,包括以下两个主要阶段:分子检索和少样本提示,如图2所示。
图2 伪数据生成流程
分子检索
上下文学习是语言大模型(LLMs)表现出的涌现能力之一。用于提示LLMs的实例则在生成质量中扮演着重要角色 (Brown et al.2020)。由于结构相似的分子通常显示出相应的特征 (Wang et al. 2016),我们检索了与未标记分子相似的带注释分子的描述,并在提示过程中使用这些描述作为少量实例。具体来说,我们从PubChem收集了37,898个带有标题的注释分子,然后检索具有最高k个Tanimoto相似性(Tanimoto 1958)的分子,这是化学信息学中的一种标准度量。为了在测试过程中防止信息泄露,我们排除了实际数据测试集中包含的分子。这个过程使得模型能够从具有相似属性的分子描述中嵌入的信息中学习,确保了更加定制化和准确的表征。图3显示了数据质量的估计,表明少样本提示方法(蓝色)产生的数据质量更高,与真实数据的相似度更高。
图3 伪数据质量估计
少样本提示
在我们的本地数据库中检索每个未标记分子的前k个结果后,我们使用加权分布选择一个结果作为少样本提示的示例,其中与目标分子相似度更高的分子被选中的几率更大。然后,将这个选中的示例纳入最终提示中。我们选择单个提示样本以最小化生成成本,因为在少样本提示中包含的实例数量增加时,费用将线性增长。这种加权选择方法防止了同一分子作为少样本提示重复选取,从而在生成过程中提高多样性,同时保持了待注释分子与少样本提示之间的相似性。
如图2所示,完整的提示包括角色定义、任务描述、少样本提示和输出控制。角色定义和任务描述为LLMs提供了一般情境并激活了其学习到的知识,而少样本提示则像辅助材料一样供LLMs参考。然后,通过对格式进行输出控制,LLMs应该能够生成所需的描述。
伪数据利用策略
伪数据的使用方式决定了模型在真实数据上的表现。我们提出并探索了两种主要策略来优化伪数据的使用。
数据增强
数据增强策略大致可以分为两类:现有数据的修改和伪数据的生成。前者是指对现有数据实例进行某些更改,而不改变其固有含义或标签,例如对图像的旋转、翻转和裁剪 (Krizhevsky, Sutskever, and Hinton 2012),或文本的同义词替换 (Wang and Yang 2015; Wei and Zou 2019; Miao et al. 2020)。这种方法更多地是在现有数据实例中增加变异性和噪声,而不是生成全新的数据。而后者则涉及基于原始数据的特性和分布创建原始数据集中不存在的新数据实例,这是在真实数据稀缺或创建新的真实数据成本高昂或不可行时的有效替代方案。现有应用包括文本的反向翻译 (Sennrich, Haddow, and Birch 2016),以及图像的生成对抗网络(GANs) (Goodfellow et al. 2014)。
受到后者技术的启发,我们探索了将伪数据作为数据增强的使用。如图4所示,我们保留训练集中的原始数据,并在微调时用伪数据进行增强。我们使用图3中描述的方法,评估真实训练集的分布,并基于相同的分布对增强的伪数据进行抽样,确保数据增强前后整体数据集分布的一致性。我们希望使用伪数据的数据增强方法能使模型接触更广泛的数据模式和场景,从而增强其识别复杂模式的能力,并将其学习泛化到未见数据。