• 小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评
  • 前言
  • 第一部分:测评机制
  • 一、测评目标
  • 二、能力考量
  • 三、测评轮次
  • 第一轮:复杂提示词理解和执行
  • 第二轮:推理能力(CoT表现)
  • 第三轮:文本生成能力(写作要求执行)
  • 第四轮:提示词设计能力(让模型设计提示词)
  • 第五轮:长文本归纳总结能力(论文阅读)
  • 四、结果评估
  • 第二部分:测评过程
  • 第一轮:复杂提示词理解和执行
  • 任务一:Markdown+英文模块标题撰写的结构化提示词
  • 测试提示词
  • 统一测试问题
  • 目标模型表现
  • 1. 智谱清言
  • 2. 文心一言4.0
  • 3. Moonshot AI
  • 4. ChatGPT 4.0
  • 任务一总结
  • 任务二: Markdown+中文模块版撰写的提示词
  • 测试提示词
  • 统一测试问题
  • 目标模型表现
  • 1. 智谱清言
  • 2. 文心一言4.0
  • 3. Moonshot AI
  • 4. ChatGPT4.0
  • 任务二总结:
  • 任务三:中文标题+自然段落撰写的提示词
  • 测试提示词
  • 统一测试问题

小七姐:文心一言4.0、智谱清言、KimiChat 小样本测评​

​
📍
作者:小七姐​
可以在以下地址关注她,主页内容更丰富:小七姐的prompt学习社群​
​
前言​
前两天看到这张图,又刚好拿到了文心一言的4.0内测号,就想着把新版国内御三家横向对比测评一下。​
前一段时间也一直在研究复杂提示词(结构化提示词)向国内大模型迁移适配的问题,索性一起做了。​
​
​
附件不支持打印
common.docs_name - LarkCCM_Docs_Menu_Image
飞书文档 - 图片
​
​