加载失败,
探讨 | 大模型在传统NLP任务的使用姿势
探讨 | 大模型在传统NLP任务的使用姿势
2024年8月12日修改
写在前面
今天给大家带来一篇震宇兄(@知乎邱震宇) 探讨大模型技术在提升传统NLP类任务效果上的应用方式 的文章,主要从文本分类任务出发。
以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域。首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力(包括推理能力)上限逐步提升到更高的层次。当然也有一些研究机构致力于改进transformer的架构或者提出其他更先进的基础模型结构,在性能或者效率上做文章,例如MOE,Mamba等;多模态模型,让大模型同时能够理解并生成图像、音频、视频、文字等多种模态的信息,例如大火的Sora。其次是大模型的微调对齐研究,主要是基座大模型通过指令微调、强化学习等技术将其变成一个应用友好、用户友好的能力模型,也可以将模型长文本、长上下文能力的提升也包含在该方向内;另外,还有大模型的高效部署和推理计算,在降低大模型服务成本的同时,提升大模型服务的实时性,提升用户体验;最后,则是大模型在各种细分场景领域的应用落地,能够将大模型封装成一个成熟的应用产品,真正的将大模型用起来,当然也可以将agent相关的技术研究归纳在这个方向上,因为agent的目标就是将大模型的能力充分利用起来,帮助人类更好地使用大模型。详见下图所示:
附件不支持打印
本人目前主要精力集中在大模型的应用落地,对大模型在传统NLP应用任务上的效果非常感兴趣。正好前段时间,有潜在客户希望我们研究是否能够通过大模型提升新闻事件分类的效果。借着这个机会,我对大模型在文本分类任务上的应用方式和对应效果进行了研究,有了一些初步的结论。本文希望通过描述上述研究过程与结果,总结出大模型在文本分类任务上的最佳实践,并推广到更多类似的应用上,为业界做大模型应用时提供一些落地的参考。
应用场景分类
在谈具体的研究内容前,需要先明确一下研究的问题类型。目前对于可能会应用到大模型的传统NLP应用,我自己将其分为两种不同的情况:
(1)开荒式业务场景。这种场景主要出现在那些刚刚完成数字化还未进行智能化的机构、或者业务场景本身比较复杂、传统技术无法在该场景中匹配最低的用户使用体验要求的情况。特点:数据积累不成熟(也就是没有足够的训练语料用于场景专用模型的训练)、硬件资源不足(没有足够的GPU用于训练模型)等。