输入“/”快速插入内容

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评

📍

作者：小七姐

可以在以下地址关注她，主页内容更丰富：小七姐的prompt学习社群

前言

前两天看到这张图，又刚好拿到了文心一言的4.0内测号，就想着把新版国内御三家横向对比测评一下。​

前一段时间也一直在研究复杂提示词（结构化提示词）向国内大模型迁移适配的问题，索性一起做了。​

第一部分：测评机制

一、测评目标

测评三家国产大模型，以同组提示词下ChatGPT 4.0生成的内容做对标参照​

•

•

•

二、能力考量

•
复杂提示词理解和执行（结构化提示词）​

•
推理能力（CoT表现）​

•
文本生成能力（写作要求执行）​

•
提示词设计能力（让模型设计提示词）​

•
长文本归纳总结能力（论文阅读）​

三、测评轮次

第一轮：复杂提示词理解和执行

1.
任务一：Markdown+英文title 提示词测试，1个任务4个模型（4次）​

2.
任务二：Markdown+中文title 提示词测试，1个任务4个模型（4次）​

3.
任务三：中文title+自然段落  提示词测试，1个任务4个模型（4次）​

第二轮：推理能力（CoT表现）

逐步推理任务，遍历3个不同类型任务+4个大模型（12次）

第三轮：文本生成能力（写作要求执行）

根据提示词生成文本任务，遍历3个不同类型任务+4个大模型（12次）​

第四轮：提示词设计能力（让模型设计提示词）

按提示词要求生成提示词，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）​

第五轮：长文本归纳总结能力（论文阅读）

按提供的长文本（上传或在线）进行归纳总结，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）​

四、结果评估

根据模型能力考量维度和每轮测试目的主观评价，仅供参考。​

在对每个环节生成内容的评价当中，我会统一使用绿色来表现模型执行优秀的部分，用红色来表现模型执行度较差的部分。​

个人认为在这里设置所谓客观的权重和分值没有太大参考意义，对模型表现感兴趣的话，各位还是看具体测试内容和细节评价吧。​

第二部分：测评过程

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评​