输入“/”快速插入内容

入选ACL 2024!实现蛋白质数据与文本信息跨模态解读,中科大王翔团队提出蛋白质-文本生成框架ProtT3

2024年8月19日修改
作者:十九 阅读原文
探索蛋白质动态结构的奥秘,不仅是推动新药研发的关键一步,更是理解生命过程的重要基石。然而,蛋白质的复杂性让人们难以直接捕捉并解析其深层结构信息,如何将错综复杂的生物数据转化为直观易懂的表达形式,一直是科研领域的一大难题。
随着语言模型 (LM) 的飞跃式发展,一个创新的想法应运而生:既然语言模型能够从大量数据中学习和提取文本信息,那能否从蛋白质数据中学会「阅读」蛋白质信息,直接将动态的蛋白质结构信息变成人类容易理解的文本叙述?
这一极具发展潜力的想法在实际应用时却遇到了诸多挑战,例如,语言模型在蛋白质序列的文本语料库上进行预训练,虽然具备很强的文本处理能力,但在理解蛋白质结构这种非人类「语言」时,显得力不从心。相反,蛋白质语言模型 (PLMs) 在蛋白质序列语料库上进行预训练,具有优秀的蛋白质理解与生成能力,但它的局限性同样显著——缺乏文本处理能力。
如果能够融合 PLMs 与 LM 的优势,构建一种既能深入理解蛋白质结构,又能无缝对接文本信息的全新模型架构,将对药物研发、蛋白质性质预测、分子设计等领域产生深远的影响。然而,蛋白质结构与人类语言文本分属不同的数据模态,想要突破壁垒进行融合并非易事。
对此,中国科学技术大学王翔,联合新加坡国立大学刘致远团队、北海道大学研究团队提出了一个全新的蛋白质-文本建模框架 ProtT3,该框架通过跨模态投影器,将具有模态差异的 PLM 与 LM 结合,其中,PLM 用于蛋白质理解,LM 用于文本处理。为实现高效微调,研究人员在 LM 中融入了 LoRA ,有效地调节了蛋白质到文本 (protein-to-text) 的生成过程。
此外,研究人员还为蛋白质-文本建模任务建立了定量评估任务,包括蛋白质字幕 (protein captioning)、蛋白质问答 (protein QA)、蛋白质-文本检索 (protein-text retrieval),ProtT3 在这 3 类任务中均取得了优异性能。
该研究以「ProtT3: Protein-to-Text Generation for Text-based Protein Understanding」为题,入选顶会 ACL 2024。
研究亮点:
ProtT3 框架可弥合文本和蛋白质之间的模态差距,提升蛋白质序列的解析准确性
蛋白质字幕任务中,ProtT3 在 Swiss-Prot 和 ProteinKG25 数据集上的 BLEU-2 分数比基线高出 10 分以上
蛋白质问答任务中,ProtT3 在 PDB-QA 数据集上的精确匹配性能提高了 2.5%
蛋白质-文本检索任务中,ProtT3 在 Swiss-Prot 和 ProteinKG25 数据集上的检索准确性比基线高 14% 以上
论文地址:
关注公众号,后台回复「蛋白质文本生成」获取完整 PDF
数据集下载地址:
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
面向蛋白质研究的 3 大数据集构建与优化
研究人员选取了 Swiss-Prot、ProteinKG25、PDB-QA 3 个数据集。