输入“/”快速插入内容

Task4:上手体验大模型解决科学问题

2024年7月19日创建
2808
3371
1
0
💡
教程贡献者说:
本次Task4我们将使用大模型来尝试解决本赛题。需要说明的是,大模型非常擅长有限空间内的分类问题,并已经在多个数据集上超越了传统深度学习模型。然而,大模型并不擅长处理本赛题的回归问题,即无穷连续值预测。目前一些研究中把产率预测回归问题转变为“高产率”和“低产率”分类问题,大大提高了大模型的预测精度。
针对大模型的应用主要有两个方面:Prompt工程和微调。本次夏令营我们先来尝试使用一下Prompt工程,利用大模型上下文学习的能力来预测输出。
必知概念入门
🍰
本小节目标:
知道大模型+化学有哪些综述性研究论文可以参考
知道大模型如何在化学领域应用,各种任务下的效果如何
知道大模型的局限性,擅长做什么,不擅长做什么
知道提示词工程是什么
大模型+化学产率预测方向可以参考的论文
[1] ChemLLM: A Chemical Large Language Model https://arxiv.org/pdf/2402.06852
[2] What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks https://arxiv.org/pdf/2305.18365【简直是豪华阵容】
化学为什么需要大模型?大模型的应用会遇到哪些问题?[2]
大模型可以简单理解为一个已经预训练好的深度神经网络,我们通过提示词即可引导其结合之前已经学会的知识输出结果。大型预训练语言模型的最新发展已经展示了跨不同任务的令人印象深刻的少量学习能力,在各种分类场景下甚至超越了传统深度学习的SOTA方案。下图(b)说明了化学领域需要特定的大模型。
🥇
试想一下,为了一个预测产率的任务就用这么多数据费时这么久从头训练一个新模型,简直太不值得了。我们为什么不尝试利用大模型已经掌握的知识直接解决问题呢?(PS. 的确有部分任务是大模型不擅长的,此时还是得自己训练传统模型
我们要知道大模型只是一个语言模型,其训练时用的数据集就是文本,输入是文本,输出也是文本。然而在很多科学领域,待检测数据并非是序列类型,例如药物分子、社交网络等。为了使用大模型,我们需要使用各种方法将其转换为序列格式才能输入大模型,如下图(a)。本赛题使用的就是药物的SMILES序列,非常方便直接输入给LLM。