- 小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评
- 前言
- 第一部分:测评机制
- 一、测评目标
- 二、能力考量
- 三、测评轮次
- 第一轮:复杂提示词理解和执行
- 第二轮:推理能力(CoT表现)
- 第三轮:文本生成能力(写作要求执行)
- 第四轮:提示词设计能力(让模型设计提示词)
- 第五轮:长文本归纳总结能力(论文阅读)
- 四、结果评估
- 第二部分:测评过程
- 第一轮:复杂提示词理解和执行
- 任务一:Markdown+英文模块标题撰写的结构化提示词
- 测试提示词
- 统一测试问题
- 目标模型表现
- 1. 智谱清言
- 2. 文心一言4.0
- 3. Moonshot AI
- 4. ChatGPT 4.0
- 任务一总结
- 任务二: Markdown+中文模块版撰写的提示词
- 测试提示词
- 统一测试问题
- 目标模型表现
- 1. 智谱清言
- 2. 文心一言4.0
- 3. Moonshot AI
- 4. ChatGPT4.0
- 任务二总结:
- 任务三:中文标题+自然段落撰写的提示词
- 测试提示词
- 统一测试问题
小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评
小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评
前言
前两天看到这张图,又刚好拿到了文心一言的4.0内测号,就想着把新版国内御三家横向对比测评一下。
前一段时间也一直在研究复杂提示词(结构化提示词)向国内大模型迁移适配的问题,索性一起做了。
附件不支持打印