加载失败，

数据合成方法-让模型自己说出用了哪些指令对齐数据

2024年8月12日修改

刘聪NLP｜阅读原文

转载请联系原作者取得授权

写在前面

大家好，我是刘聪NLP。

大模型时代，数据至上，如何利用大模型合成更多高质量数据也备受关注。

今天给大家分享一个有意思的大模型合成数据方法-MAGPIE，在不需要种子数据和额外人工干预的情况下，挖掘出对齐过的模型自身的指令数据。

《MAGPIE: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing》

代码块

paper: https://arxiv.org/abs/2406.08464​
github: https://github.com/magpie-align/magpie​

核心思想：对齐过的大模型本身是经过大量指令数据对齐得来，往往这些对齐后的模型接受的输入通常由 “前置查询模板”、“查询内容”、“后置查询模板” 组成（例如：Llama2-Chat模型接受的输入是"[INST] Hi! [/INST]"，[INST] 是前置查询模板”，[/INST]则是后置查询模板）当对模型仅输入前置模板时，模型会自回归的合成“查询内容”；并且当组合完全时，开源获得模型的回复结果。

这样就变相地挖掘出对齐模型的指令数据，你以为只开了模型，我直接挖向

方法介绍

附件不支持打印

加载失败，

数据合成方法-让模型自己说出用了哪些指令对齐数据​

数据合成方法-让模型自己说出用了哪些指令对齐数据