输入“/”快速插入内容

小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评

📍
作者:小七姐
可以在以下地址关注她,主页内容更丰富:小七姐的prompt学习社群
前言
前两天看到这张图,又刚好拿到了文心一言的4.0内测号,就想着把新版国内御三家横向对比测评一下。
前一段时间也一直在研究复杂提示词(结构化提示词)向国内大模型迁移适配的问题,索性一起做了。
第一部分:测评机制
一、测评目标
测评三家国产大模型,以同组提示词下ChatGPT 4.0生成的内容做对标参照
二、能力考量
复杂提示词理解和执行(结构化提示词)
推理能力(CoT表现)
文本生成能力(写作要求执行)
提示词设计能力(让模型设计提示词)
长文本归纳总结能力(论文阅读)
三、测评轮次
第一轮:复杂提示词理解和执行
1.
任务一:Markdown+英文title 提示词测试,1个任务4个模型(4次)
2.
任务二:Markdown+中文title 提示词测试,1个任务4个模型(4次)
3.
任务三:中文title+自然段落 提示词测试,1个任务4个模型(4次)
第二轮:推理能力(CoT表现)
逐步推理任务,遍历3个不同类型任务+4个大模型(12次)
第三轮:文本生成能力(写作要求执行)
根据提示词生成文本任务,遍历3个不同类型任务+4个大模型(12次)
第四轮:提示词设计能力(让模型设计提示词)
按提示词要求生成提示词,逐步推理任务,遍历3个不同类型任务+4个大模型(12次)
第五轮:长文本归纳总结能力(论文阅读)
按提供的长文本(上传或在线)进行归纳总结,逐步推理任务,遍历3个不同类型任务+4个大模型(12次)
四、结果评估
根据模型能力考量维度和每轮测试目的主观评价,仅供参考。
在对每个环节生成内容的评价当中,我会统一使用绿色来表现模型执行优秀的部分,用红色来表现模型执行度较差的部分。
个人认为在这里设置所谓客观的权重和分值没有太大参考意义,对模型表现感兴趣的话,各位还是看具体测试内容和细节评价吧。
第二部分:测评过程