输入“/”快速插入内容

超全拆解AlphaFold 3,上海交大钟博子韬:极致利用数据,以原子精度预测所有生物分子结构,但并不完美

2024年9月4日修改
作者:钟博子韬 阅读原文
能够以「原子精度」预测出所有生物分子结构和相互作用的 AlphaFold 3,一经面世便引起了业界的广泛讨论。8 月 13 日,在上海交通大学 AI for Bioengineering 暑期学校活动中,钟博子韬博士以「AlphaFold 3:原理,应用与展望」为题,系统性地梳理了他的学习心得,并广泛整理了来自科研界的众多相关研究成果,向大家分享了他对于 AlphaFold 3 的深刻洞察,HyperAI超神经在不违原意的前提下,整理了演讲的核心内容,以下为演讲实录。
钟博子韬博士分享现场
聚焦蛋白质结构预测,今天我们来谈谈 AlphaFold 3,作为当前顶尖的蛋白质、乃至更广泛的生物分子结构预测工具,AlphaFold 3 的地位已不言而喻。
蛋白质合成始于 DNA 转录,后将遗传信息传递给 RNA,再翻译成蛋白质,进一步折叠成二级结构、三级结构、四级结构。大多数蛋白质会折叠成独特的构象,而结构所需的信息都编码在氨基酸序列中,也就是我们常说的:序列决定结构,结构决定功能,蛋白质结构预测对于了解生物功能至关重要。
AlphaFold 3 突破:革新模型架构,提高数据利用率
对比 AlphaFold 3 与 AlphaFold 2 模型架构
过去,AlphaFold 2 在蛋白质结构预测方面直接「血虐」其他算法。其核心架构可归结为 3 个关键部分,如下图所示:第一部分,蓝色框内的 MSA & Template 模块,其功能在于搜集并整合多序列比对 (MSA) 及模版结构信息作为模型的输入数据。第二部分,绿色框内的 Evoformer 模块,其功能在于理解多序列组织中的共进化信息,通过提炼并处理收集到的信息,将其传递给第三部分紫色框内的 Structure Module 模块。
以深度学习视角来看,Evoformer 扮演了编码器的角色,而 Structure Module 则相当于解码器,从这方面来说,AlphaFold 2 之所以备受赞誉,很大程度上归功于其端到端的优化能力,即直接从序列输入映射到结构输出。
外界普遍认为 AlphaFold 3 的模型架构变化并没有想象中那么大,其模型框架也是由 3 个关键部分组成,每部分和 AlphaFold 2 的对比如下:
第一部分:保持高度相似
如下图所示,比较 AlphaFold 3 和 AlphaFold 2 的架构图可得,AlphaFold 3 的第一部分(蓝色框内)依然包括 MSA & Template,并额外引入了Conformer generation(构象生成)环节。