分子发现在包括化学 (Wang et al. 2023b; Cuzzucoli Crucitti et al. 2023)、药理学 (Patani and LaVoie 1996; Anderson 2003) 和材料科学 (Curtarolo et al. 2013) 等多个科学领域发挥着关键作用。然而,传统的分子设计方法常常面临诸如高成本、漫长的开发过程和有限的成功率等挑战。例如,将一种新药推向市场可能需要超过十亿美元和十多年的开发时间 (Gaudelet et al. 2021)。
随着人工智能(AI)的出现,创新的跨模态方法正在引领合成和分析复杂分子结构的新方式,提高效率,并重塑计算化学和材料科学领域。Edwards et al. (2022) 提出了一种将分子直接翻译为相应标题的新方法,并能从自然语言文本生成分子结构,如图1所示。这种跨模态方法预示着,在未来通过简单的自然语言句子就可以实现特定分子的设计和研究。
图1 基于文本的分子生成与分子标注
为解决这些任务,许多研究者已经做出了各种尝试。MolT5 (Edwards et al. 2022) 使用 SMILES (Weininger 1988) 和分子描述分别进行掩码语言建模(MLM)(Raffel et al. 2020) 预训练。Liu et al. (2023) 通过将生物医学文献与分子结构表示相融合的序列进行因果语言建模(CLM)来预训练模型,这些序列是通过用它们的 SMILES 表示替换分子实体而得到的。然而,这些研究受到分子-描述对稀缺性的限制,使得直接的序列到序列(seq2seq)训练变得不可行。在 Christofidellis et al. (2023) 的研究中,下游数据集的注释数据被纳入预训练,尽管与未注释数据相比比例显著较低,但seq2seq训练的有效性显而易见。主要瓶颈在于注释过程本身:这些对的注释需要分子化学方面的专业知识,使得大规模人工注释既昂贵又困难。
受到自然语言处理(NLP)及相关领域大型语言模型(LLMs)巨大成功的启发 (Bagal et al. 2021; Frey et al. 2022; Ferruz, Schmidt, and Hocker 2022),我们提出通过使用由LLMs生成的人工实数据来缓解低资源难题。与源自真实实验或观测的“真实数据”不同,这种“伪数据”或“人工实数据”是人工制作的。尽管它模仿了真实数据的格式,但其内容并不反映实际的现实世界观测,因此可能不适合直接应用于现实世界。
方法
伪数据生成
高质量的伪数据是进一步探索的基础。在这里,我们提出了PseudoMD-1M,这是第一个由100万对分子-描述数据对组成的数据集。为了获得足够的数据,我们利用了大量未标记的分子,并使用大型语言模型(LLMs)来生成相应的描述。我们首先从PubChem (Kim et al. 2023) 收集了110万个未标注的分子的SMILES字符串。然后,我们采用严格的过滤程序,筛选出下游数据集中的SMILES,确保收集到的分子与真实数据集中的分子不重叠 (Edwards, Zhai, and Ji 2021; Zeng et al. 2022)。通过这样做,我们确保了不会意外地将真实数据集中的分子的任何补充信息纳入其中,从而保持了训练过程的完整性和独立性。利用ChatGPT API,我们为每个未标注的分子生成了包含关键方面如属性和结构特征的文本描述。为了提高生成描述的质量,我们实施了一个基于检索的提示范式,包括以下两个主要阶段:分子检索和少样本提示,如图2所示。
图2 伪数据生成流程
分子检索
上下文学习是语言大模型(LLMs)表现出的涌现能力之一。用于提示LLMs的实例则在生成质量中扮演着重要角色 (Brown et al.2020)。由于结构相似的分子通常显示出相应的特征 (Wang et al. 2016),我们检索了与未标记分子相似的带注释分子的描述,并在提示过程中使用这些描述作为少量实例。具体来说,我们从PubChem收集了37,898个带有标题的注释分子,然后检索具有最高k个Tanimoto相似性(Tanimoto 1958)的分子,这是化学信息学中的一种标准度量。为了在测试过程中防止信息泄露,我们排除了实际数据测试集中包含的分子。这个过程使得模型能够从具有相似属性的分子描述中嵌入的信息中学习,确保了更加定制化和准确的表征。图3显示了数据质量的估计,表明少样本提示方法(蓝色)产生的数据质量更高,与真实数据的相似度更高。
数据增强策略大致可以分为两类:现有数据的修改和伪数据的生成。前者是指对现有数据实例进行某些更改,而不改变其固有含义或标签,例如对图像的旋转、翻转和裁剪 (Krizhevsky, Sutskever, and Hinton 2012),或文本的同义词替换 (Wang and Yang 2015; Wei and Zou 2019; Miao et al. 2020)。这种方法更多地是在现有数据实例中增加变异性和噪声,而不是生成全新的数据。而后者则涉及基于原始数据的特性和分布创建原始数据集中不存在的新数据实例,这是在真实数据稀缺或创建新的真实数据成本高昂或不可行时的有效替代方案。现有应用包括文本的反向翻译 (Sennrich, Haddow, and Birch 2016),以及图像的生成对抗网络(GANs) (Goodfellow et al. 2014)。