输入“/”快速插入内容

覆盖 7 百万问答数据,上海 AI Lab 发布 ChemLLM,专业能力比肩 GPT-4

2024年9月4日修改
作者:李姝 阅读原文
随着人工智能技术的飞速发展,大语言模型 (LLMs) 凭借其强大的自然语言处理能力,在生命科学、海洋学、材料化学等科学研究中被广泛应用。虽然,LLMs 在分子特性预测、分子生成和实验方案设计等化学相关任务上表现良好,但在处理各种化学下游任务时表现欠佳。
究其原因,直接将化学知识集成到语言模型中,主要面临三大挑战:首先,大多数化学信息和知识存储在结构化数据库中,直接使用这些数据训练 LLMs 可能会损害模型处理自然语言的能力,使得模型的对话和逻辑推理能力发生退化;其次,在化学信息学中,分子用特殊符号表示,如 SMILES。然而这类数据往往不符合自然语言的规范,因此常规的语言模型难以正确理解和生成这种符号;最后,化学数据和任务种类繁多,设计一个灵活并能泛化到多种化学任务上的训练流程十分困难。
针对于此,上海人工智能实验室发布了化学大语言模型 ChemLLM。ChemLLM 擅长通过流畅的对话交互执行化学学科的各种任务,在核心任务上的性能与 GPT-4 相当,并在一般场景中表现出了与类似规模的 LLM 相媲美的性能。ChemLLM 为化学研究的探索开辟了新的道路,并且研究团队将结构化化学知识融入对话系统的方法,为开发各科学领域的 LLM 树立了新的标准。
相关研究以「ChemLLM: A Chemical Large Language Model」为题,已发表于 arXiv,成果已开源,并提供免费商用。目前 HyperAI超神经官网 (hyper.ai) 已上线「一键部署化学大模型 ChemLLM-7B-chat」,分步教程详见文末~
研究亮点:
创建并开源大规模化学数据集 ChemData 以及 ChemPref-10K 的中英文版本数据集、C- MHChem 数据集、 ChemBench4K 化学能力评测基准数据集
创建并开源包含 4,100 道选择题、9 项特定任务的大规模化学基准测试 ChemBench
通过定量、定性的评估测试,ChemLLM 表现出良好的化学专业性和多功能性
论文地址:
关注公众号,后台回复「ChemLLM」获取完整 PDF
化学大模型 ChemLLM-7B-chat 教程已在 hyper.ai 上线,点击链接一键部署:
ChemData 化学任务数据集下载地址:
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
ChemData 数据集: 涵盖 700 万条问答数据的大规模化学数据集
研究人员从众多在线资源库中收集了包括 PubChem、ChEMBL、ChEBI、ZINC 等在内的化学数据,并在此基础上创建了一个用于微调 ChemLLM 的大规模数据集 ChemData。
ChemData 数据集利用基于模板的指令构建方法,将结构化的化学数据转换为适合训练 LLM 的自然对话形式。该数据集包含 700 万条用于指令微调的问答数据,涵盖了广泛的化学领域知识,并且该问答数据类别与分子、反应和其他与化学相关的任务类别一致。
其中,与分子相关的任务包括名称转换 (Name Conversion)、Caption2Mol、Mol2Caption 和分子性质预测 (Molecular Property Prediction),主要目的是调整语言模型对化学分子的感知。
与反应相关的任务涉及化学反应的各个方面,包括逆合成 (Retrosynthesis)、产物预测 (Product Prediction)、产量预测 (Yield Prediction)、温度预测 (Temperature Prediction) 和溶剂预测 (Solvent Prediction)。除可明确分类的数据外,所有其他数据都归入特定类型的任务,从而增强 ChemLLM 对整个化学空间的理解。下图展示了这三类任务所包含数据分别占的比重。