输入“/”快速插入内容

谷歌推出可穿戴基础模型 LSM|大模型论文周报(10.14-10.18)

2024年10月18日修改
10.18
Meta 提出思维偏好优化 TPO
大语言模型(LLM)通常经过训练,能够回答用户问题或遵循指令,与人类专家的回答方式类似。然而,在标准对齐框架中,它们缺乏在回答前进行明确思考的基本能力。思考能力对于需要推理和规划的复杂问题非常重要,但也可用于任何任务。
在这项工作中,来自 Meta 的研究团队及其合作者提出了思维偏好优化(TPO)方法,让现有的 LLM 具备这种思维能力,从而在不使用额外人类数据的情况下,进行一般指导。为此,他们采用迭代搜索和优化程序,探索可能的思维生成空间,让模型在没有直接监督的情况下学习如何思考。 对于每条指令,候选思维都会使用一个法官模型进行评分,从而评估它们的反应,然后通过偏好优化进行优化。
研究结果表明,这种方法能在 AlpacaEval 和 Arena-Hard 考试中取得优异成绩,而且除了更传统的推理和问题解决任务外,还能在市场营销、健康和常识等非推理类别的思考中发挥作用。
论文链接:
想要第一时间获取每日最新大模型热门论文?
扫描下方二维码申请入群,请务必备注「姓名+职业+公司/学校」,否则不予通过。
ps:我们会持续分享日报、周报、月报,敬请期待~
谷歌推出可穿戴基础模型 LSM
由于具有各种健康跟踪功能,可穿戴传感器已变得无处不在。日常生活中的连续和纵向测量产生了大量数据;然而,如何利用这些观测数据获得科学和可行的见解并非易事。
在生成式建模(大型神经网络从大量文本、图像、视频或音频数据中学习强大的表征)的成功经验启发下,谷歌团队研究了传感器基础模型在计算、数据和模型大小方面的扩展特性。他们利用来自超过 16.5 万人的多达 4000 万小时的现场心率、心率变异性、皮肤电活动、加速度计、皮肤温度和高度计每分钟数据集,创建了 LSM 多模态基础模型,该模型建立在迄今为止最大的可穿戴信号数据集和最广泛的传感器模态基础之上。
研究结果确立了 LSM 在估算、内插法和外推法等任务中跨时间和跨传感器模式的 scaling laws。此外,他们还强调了 LSM 如何为运动和活动识别等任务提供具有采样效率的下游学习。
论文链接:
Meta 推出媒体生成基础模型 Movie Gen
Meta 团队推出了 Movie Gen,它是一种基础模型,可生成具有不同纵横比和同步音频的高质量 1080p 高清视频。他们还展示了其他功能,如基于指令的精确视频编辑和根据用户图像生成个性化视频。
他们的模型在文生视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成等多项任务上都达到了 SOTA。他们最大的视频生成模型是一个 30B 参数的 Transformer,其最大上下文长度为 73K video token,相当于以每秒 16 帧的速度生成 16 秒的视频。
他们展示了在架构、潜在空间、训练目标和数据整理、评估协议、并行化技术和推理优化等方面的多项技术创新,这使他们能够在训练大规模媒体生成模型时,从扩展预训练数据、模型大小和训练计算中获益。
论文链接:
项目地址:
康奈尔大学团队:从交互中回溯学习