2023-06-10大模型概念驱动下的银行数智化转型思考

2023年6月29日修改
意见领袖 | 新金融联盟NFA(平安银行数字资产管理与研发中心总经理 刘锦淼)
  人类社会发展经历了农业化、工业化进程,现在已全面进入数字化社会。数字化社会随着信息系统建设逐步完善、知识能力储备日益丰富,逐渐从信息化、知识化,发展为了自主化、自动化。人类社会早期的发展进程相对平稳,但随着信息、知识、模型、技术等不断升级和快速发展,信息化社会的发展模式将逐渐脱离体力劳动和脑力劳动,进入“创新为主、其他为辅”的智能化发展时代。在此趋势与背景下,以ChatGPT、AIGC为代表的自动化、自主化科技将成为银行数智化发展的一个重要突破口。
  从“智障”到“智能”的五次迭代
  大语言模型是基于大量文本数据训练的深度学习模型,具备自动生成自然语言文本或理解语言文本含义的能力,该能力也是从人工“智障”通向真人工“智能”的一条重要途径。大语言模型算法从出现、发展到成熟已经有五次的更新迭代:
  第一阶段:1970~2010年,主要以基础理论研究为主,词嵌入算法逐步发展。
  第二阶段:2011~2013年,NLP-DL进入到深度学习时代,以CNNGNN为代表的深度学习神经网络算法逐渐应用于NLP自然语言处理
  第三阶段:2013~2017年,NLP出现新的Tranformer网络算法框架。该算法框架增加了Encoder和Decoder两个部分,实现了上下文语义获取和重点内容关注的能力。基于encoder和decoder的重点发展方向,分为自编译网络(BERT)和自回归网络(GPT)两个方向。
  第四阶段:随着GPT的发展,2022年ChatGPT正式发布,经过市场不断推捧与发酵,整个社会对AIGC有了比较普遍的认知。
  第五阶段:2023年以来,GPT迭代到GPT4版本,AIGC的应用领域逐渐从文本生成,拓展到语音、图像领域。
  近五年来,GPT从GPT3到ChatGPT再到GPT4,模型的迭代经历无监督模型(学习填空)、有监督模型(优化精调)、SFT+RM(人类引导、喜好模型)、RLHF(人类强化反馈)等,均是靠大数据、大算力支撑。以ChatGPT为例,该大模型是基于45T高质量数据、159G代码、10万亿单词,在3万多片A100 GPU算力下训练生成,参数高达1750多亿(GPT4达到1.8万亿)。
  大模型能做什么
  大模型借助大模型技术、自学习技术以及内容生成技术,利用海量数据和知识来构建底层基础架构(GPT),支撑构建通识问答、内容创作、信息抽取等三大产品能力,可满足各种业务场景能力需求,包括知识问答、情绪分析、意图识别、信息抽取、内容生成、代码生成、图像生成等。
  为什么NLP模型采用大模型之后效率会提升?从传统NLP训练角度来讲,通常先要做意图的定义、意图相关分析,再向上做语料训练、效果调优、识别意图等开发,最终实现对NLP模型效率的提升。而大模型基本上就能够涵盖和支撑从中间语料训练到调优过程,应用端无须再考虑自己去做大量标注训练,缩短了准备数据的周期,研发效率实现了提升。
  大模型的三个层次
  针对国内大模型发展,中国信通院制定了大模型分级标准,华为、百度、腾讯、阿里等一线大模型厂商形成了大模型分级架构。根据数据范围,训练方式,应用范围的不同,可将大模型分为基础通用层(L0),行业层(L1)以及行业内具体场景层(L2)。
  针对基础大模型,国内厂商采用无监督预训练、强化学习的方法,完成对大模型的研发与训练,输出的模型初步具备几百亿到几千亿模型参数能力。
  而在一些专业领域,各家企业也正在构建自己的行业大模型。例如平安集团已尝试引用国内提供的基础大模型,基于行数据数据进行预训练、无监督训练后,输出金融大模型。
  针对场景化的模型应用领域,即基于行业的金融大模型,通过引入专家经验、模型调优策略,通过小样本标注及增量学习方式升级模型,从而形成场景化的大模型,构建类似营销专家、理财专家、信贷模型审批专家等AI模型,赋能具体业务场景。
  平安银行的探索实践