输入“/”快速插入内容

大模型玩《黑神话:悟空》,完成 90% 简单、中等水平战斗|大模型论文周报(9.17-9.20)

2024年9月23日修改
9.20
大模型玩《黑神话:悟空》,完成 90% 简单、中等水平战斗
最近,基于大语言模型(LLM)的智能体在各个领域都取得了重大进展。最热门的研究领域之一是将这些智能体应用于视频游戏中。这些方法通常依赖于游戏 API 来访问游戏中的环境和动作数据。然而,这种方法受限于 API 的可用性,无法反映人类玩游戏的方式。
随着视觉语言模型(VLM)的出现,智能体现在拥有了更强的视觉理解能力,使其能够仅使用视觉输入与游戏进行交互。尽管取得了这些进步,但目前的方法在面向动作的任务中仍面临挑战,特别是在动作角色扮演游戏(ARPG)中,强化学习方法非常普遍,但通用性差,需要大量训练。
为了解决这些局限性,阿里团队选择以《黑神话:悟空》作为研究平台,探索现有 VLM 在需要纯视觉输入和复杂动作输出的场景中的能力边界。他们在游戏中定义了 12 项任务,其中 75% 以战斗为主,并将几种 SOTA 视觉语言模型纳入这一基准。此外,他们还将发布一个人工操作数据集,其中包含录制的游戏视频和操作日志,包括鼠标和键盘操作。他们还提出了一个 VARP(视觉动作角色扮演)智能体框架,由动作规划系统和视觉轨迹系统组成。这一框架展示了执行基本任务的能力,并在 90% 的简单和中等水平的战斗场景中取得了成功。这项研究旨在为在复杂的动作游戏环境中应用多模态智能体提供新的见解和方向。
论文链接:
GitHub 地址:
想要第一时间获取每日热门大模型论文?
扫描下方二维码申请入群,请务必备注「姓名+职业+公司/学校」,否则不予通过。
ps:我们会持续分享日报、周报、月报,敬请期待~
小红书推出 StoryMaker:实现“文生图”的特征整体一致
无需额外微调(Tuning-free)的个性化图像生成方法在保持面部一致性方面取得了巨大成功。然而,在有多个角色的场景中,缺乏整体一致性阻碍了这些方法创造连贯叙事的能力。
在这项工作中,小红书团队推出了一种个性化解决方案——StoryMaker,它不仅能保持面部的一致性,还能保持服装、发型和身体的一致性,从而通过一系列图像促进故事的创作。StoryMaker 融合了基于面部身份的条件和裁剪后的人物图像。具体来说,他们使用位置感知感知器重采样器(PPR)将面部身份信息与裁剪后的人物图像整合在一起,从而获得鲜明的人物特征。为了防止多个人物和背景混杂在一起,他们使用带有分割掩码的 MSE 损失分别限制不同人物和背景的交叉注意力影响区域。此外,他们以姿势为条件训练生成网络,从而促进与姿势的解耦。他们还采用了 LoRA 来提高保真度和质量。
论文链接:
GitHub 地址:
字节、中科院团队推出多模态数学预训练数据集 InfiMM-WebMath-40B
在大规模、高质量的数据集上进行预训练对于提高大语言模型(LLM)的推理能力至关重要,尤其是在数学等专业领域。尽管多模态大语言模型(MLLMs)的重要性已得到公认,但该领域目前仍缺乏专门针对数学推理的全面开源预训练数据集。
为了填补这一空白,来自字节跳动和中科院的研究团队推出了一个高质量的交错图像-文本文档数据集——InfiMM-WebMath-40B。该数据集由 2400 万个网页、8500 万个相关图片 URL 和 400 亿个文本 token 组成。为了证明 InfiMM-WebMath-40B 的鲁棒性,他们在纯文本和多模态环境中进行了评估。在纯文本基准上的评估结果表明,尽管只使用了 400 亿个 token,但数据集显著提高了 1.3B 参数模型的性能,其结果可与 DeepSeekMath-1.3B 相媲美,后者在相同的模型规模下使用了 1200 亿个 token。
尽管如此,随着多模态数学预训练数据集的引入,他们的模型在多模态数学基准(如 MathVerse 和 We-Math)上创造了达到了开源模型 SOTA。
论文链接: