截止2024年,我浏览过很多应用大模型研究传统NLP任务的工作,大多集中在如何利用prompt技术、few-shot技术等直接将大模型应用在这些传统任务中。例如这一篇:Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT,通过prompt工程对比ChatGPT与Fine-tuned Roberta在GLUE数据集上的效果,最终的结论是Fine-tuned Roberta在文本理解任务上仍然无法被超越。然而我也看到有一些观点认为这些传统任务直接用大模型一把梭就能搞定,只要prompt写的足够好,就能得到一个足够好的语言理解分析服务。本人并不反对这种观点,而且还支持对过去的一些应用模式进行革新,从而让大模型能够充分发挥其特性。不过在目前的阶段,很多企业或者业务场景基于安全、成本、时延等因素,无法使用综合能力强的模型(GPT4,国内模型的付费版公有云服务、超过14B的开源模型等),而通过纯prompt工程使用类似7B的模型还无法完全替代已经在足量数据上训练过的BERT类模型。由于上述提到的研究是使用ChatGPT以及英文的数据集,为了验证国内开源的大模型是否在中文数据集上是否也有类似的结论,下面我将根据相关的目标应用场景以一个具体的数据集的实验来说明。