谷歌推出可穿戴基础模型 LSM|大模型论文周报(10.14-10.18)
谷歌推出可穿戴基础模型 LSM|大模型论文周报(10.14-10.18)
2024年10月18日修改
10.18
Meta 提出思维偏好优化 TPO
大语言模型(LLM)通常经过训练,能够回答用户问题或遵循指令,与人类专家的回答方式类似。然而,在标准对齐框架中,它们缺乏在回答前进行明确思考的基本能力。思考能力对于需要推理和规划的复杂问题非常重要,但也可用于任何任务。
在这项工作中,来自 Meta 的研究团队及其合作者提出了思维偏好优化(TPO)方法,让现有的 LLM 具备这种思维能力,从而在不使用额外人类数据的情况下,进行一般指导。为此,他们采用迭代搜索和优化程序,探索可能的思维生成空间,让模型在没有直接监督的情况下学习如何思考。 对于每条指令,候选思维都会使用一个法官模型进行评分,从而评估它们的反应,然后通过偏好优化进行优化。
研究结果表明,这种方法能在 AlpacaEval 和 Arena-Hard 考试中取得优异成绩,而且除了更传统的推理和问题解决任务外,还能在市场营销、健康和常识等非推理类别的思考中发挥作用。
论文链接:
想要第一时间获取每日最新大模型热门论文?
扫描下方二维码申请入群,请务必备注「姓名+职业+公司/学校」,否则不予通过。
ps:我们会持续分享日报、周报、月报,敬请期待~
附件不支持打印
加载失败,