输入“/”快速插入内容

苹果推出视频大语言模型 SlowFast-LaVA|大模型论文周报(7.22-7.26)

2024年9月23日修改
7.25-7.26
MINT-1T:迄今为止最广泛、最多样的开源多模态交错数据集
多模态交错数据集具有自由形式的图像和文本交错序列,对于训练前沿大型多模态模型(LMM)至关重要。尽管开源 LMM 发展迅速,但大规模、多样化的开源多模态交错数据集仍然非常稀缺。
为此,来自华盛顿大学和 Salesforce 的研究团队及其合作者,推出了迄今为止最广泛、最多样的开源多模态交错数据集——MINT-1T,其包含一万亿个文本 token 和 34 亿张图片,是现有开源数据集的 10 倍。此外,他们还纳入了 PDF 和 ArXiv 论文等以前未开发的资源。
由于扩展多模态交错数据集需要大量的工程努力,因此共享数据整理过程和发布数据集对社区大有裨益。实验表明,在 MINT-1T 上训练的 LMM 的性能可与在之前的领先数据集 OBELICS 上训练的模型相媲美。
论文链接:
GitHub 地址:
想要第一时间获取每日热门大模型论文?
扫描下方二维码申请入群,请务必备注「姓名+职业+公司/学校」,否则不予通过。
ps:我们会持续分享日报、周报、月报,敬请期待~
Diffree:通过文本引导实现对象添加的文生图模型
来自厦门大学和上海 AI Lab 的研究团队解决了一个重要问题,即仅通过文本指导为图像添加对象。这是一个挑战,因为新对象必须无缝地融入图像中,并保持一致的视觉背景,如光照、纹理和空间位置。虽然现有的文本引导图像修补方法可以添加对象,但它们要么无法保持背景的一致性,要么需要繁琐的人工干预来指定边界框或用户涂鸦的遮罩。
为此,研究团队推出了 Diffree,这是一个文生图(T2I)模型,它仅通过文本控制就能方便地实现文本引导的对象添加。他们通过使用图像修补技术移除对象,制作了一个合成数据集 OABench。OABench 包含了 74K 个真实世界的元组,包括原始图像、移除对象后的修补图像、对象遮罩和对象描述。
在 OABench 上使用带有额外遮罩预测模块的 Stable Diffusion 模型进行训练后,Diffree 能够独特地预测新对象的位置,并仅通过文本指导实现对象添加。广泛的实验表明,Diffree 在添加新对象方面具有高成功率,同时保持了背景一致性、空间适宜性以及对象的相关性和质量。
论文链接:
GitHub 地址:
OpenDevin:面向 AI 软件开发者的智能体开放平台
得益于大语言模型(LLM)的改进,与周围环境互动并产生影响变化的 AI 智能体(agent)得到了快速发展。
在这项工作中,来自美国伊利诺伊大学香槟分校、卡内基梅隆大学的研究团队及其合作者推出了 OpenDevin,这是一个用于开发强大且灵活的智能体的平台,这些智能体以类似于人类开发者的方式与世界互动:编写代码、与命令行交互以及浏览网页。研究团队描述了该平台如何实现新智能体的创建,与代码执行的沙盒环境的安全交互,多个智能体之间的协调,以及评估基准的整合。
基于他们目前整合的基准,他们对智能体在 15 个挑战性任务上进行了评估,包括软件工程(例如,SWE-BENCH)和网页浏览(例如,WEBARENA)等。
论文链接:
GitHub 地址:
ViPer:通过个体偏好学习实现生成模型的视觉个性化
不同的用户对于同一提示生成的不同图像有不同的喜好。这引发了个性化的图像生成,即创建与个人视觉偏好相符的图像。然而,当前的生成模型是非个性化的,因为它们被调整为产出吸引广泛受众的输出。使用它们来生成与个人用户喜好对齐的图像依赖于用户迭代的手动提示工程,这是低效且不理想的。
来自瑞士洛桑联邦理工学院研究团队提出通过首先在一次性的过程中捕获用户的通用偏好来个性化图像生成过程,方法是邀请他们对一组小规模图像进行评论,解释他们喜欢或不喜欢每张图像的原因。基于这些评论,研究团队使用大语言模型(LLM)推断出用户结构化的喜欢和不喜欢视觉属性,即他们的视觉偏好。这些属性用于指导文本到图像模型,使其产出调整到个人用户视觉偏好的图像。
通过一系列的用户研究和 LLM 引导的评估,他们证明了所提出的方法能够生成与个人用户视觉偏好高度一致的图像。
论文链接:
项目地址:
PERSONA:一个可复现的多元对齐测试平台
语言模型(LM)的快速进步要求与多样化的用户价值观进行鲁棒的对齐。然而,当前的偏好优化方法往往未能捕捉到用户意见的多样性,反而强化了多数观点,边缘化了少数视角。来自 SynthLabs 和斯坦福大学的研究团队推出了一个可复现的测试平台 PERSONA,旨在评估和改进 LM 的多元对齐。
研究团队从美国人口普查数据中程序化地生成多样化的用户档案,从而得到 1586 个具有不同人口统计特征和独特属性的合成人物。然后,他们生成了一个大规模的评估数据集,包含 3868 个提示和来自他们合成人物的 317200 个反馈对。利用这个数据集,他们系统地评估了 LM 在扮演多样化用户方面的能力,并通过人类评委进行验证,以及建立了多元对齐方法的基准测试 PERSONA Bench,以及一个广泛的数据库,用于创建新的和未来的基准测试。
论文链接:
项目地址:
7.24
OpenAI 最新研究:无需大量人工,用基于规则的奖励改善模型安全行为
基于人类偏好的大语言模型(LLM)的强化学习微调已被证明可以提升它们的能力和安全行为。然而,在涉及安全的情况下,如果没有向人类标注者提供精确的指示,收集到的数据可能会导致模型变得过于谨慎,或者以不希望的风格回应,例如带有评判性。此外,随着模型能力和使用模式的发展,可能需要花费大量成本来添加或重新标注数据以修改安全行为。
为此,OpenAI 研究团队推出了一种新颖的偏好建模方法,该方法利用人工智能(AI)反馈,并且只需少量的人类数据。他们基于规则的奖励(RBR),使用一组规则来定义期望或非期望的行为(例如,拒绝不应带有评判性),并结合一个 LLM 评分器。
与之前使用 AI 反馈的方法不同,他们的方法在 RL 训练中直接使用细粒度、可组合的、LLM 评分的少量样本提示作为奖励,从而实现了更大的控制、准确性和易于更新。
他们展示了 RBR 是一种有效的训练方法,其 F1 分数达到 97.1,而人类反馈的基线为 91.7,通过更好地平衡有用性和安全性,显著提高了安全行为准确性。
论文链接:
GitHub 地址:
Stability AI 推出 Stable Video 4D
Stability AI 研究团队推出了 Stable Video 4D (SV4D),这是一种用于生成多帧和多视角一致的动态 3D 内容的潜在视频扩散模型。与之前依赖单独训练的视频生成和新视角合成的生成模型的方法不同,他们设计了一个统一的扩散模型来生成动态 3D 对象的新视角视频。
具体来说,给定一个单目参考视频,SV4D 为每个视频帧生成时间上的一致的新视角。然后,他们使用生成的新视角视频来高效优化一个隐式的 4D 表示(动态 NeRF),无需在大多数先前工作中使用的繁琐的 SDS 基优化。
为了训练该统一的生成新视角视频模型,他们从现有的 Objaverse 数据集中策划了一个动态 3D 对象数据集。在多个数据集上的广泛实验结果和用户研究证明了 SV4D 在新型视角视频合成以及与先前工作相比的 4D 生成方面的先进性能。
论文链接:
项目地址:
CoD:利用诊断链实现可解释的医疗智能体
随着大语言模型(LLMs)的出现,医学诊断领域发生了重大变革,但这些模型的可解释性问题在很大程度上仍未得到解决。
提高基于 LLM 的医疗诊断的可解释性,来自深圳市大数据研究院和香港中文大学的研究团队提出了诊断链(Chain-of-Diagnosis,CoD)。
CoD 将诊断过程转化为一个反映医生思维过程的诊断链,提供了一个透明的推理路径。此外,CoD 还能输出疾病可信度分布,确保决策的透明度。这种可解释性使模型诊断具有可控性,并有助于通过降低置信度的熵来识别关键症状,以便进行调查。利用 CoD,他们开发了 DiagnosisGPT,其能够诊断 9604 种疾病。
实验结果表明,DiagnosisGPT 在诊断基准上优于其他 LLM。此外,DiagnosisGPT 还提供了可解释性,同时确保了诊断严谨性的可控性。
论文链接:
GitHub 地址:
Cross Anything:通用四足机器人在复杂地形中导航
视觉语言模型(VLM)在各种机器人任务中的应用取得了显著的成就,但用于四足机器人导航的基础模型却鲜有探索。
来自上海期智研究院、浙江大学和上海交通大学的研究团队提出了由高级推理模块和低级控制策略组成的创新系统—Cross Anything System(CAS),它使机器人能够在复杂的 3D 地形中导航并到达目标位置。在高级推理和运动规划方面,他们提出了一种利用 VLM 的新型算法系统,并设计了任务分解和闭环子任务执行机制。在低级运动控制方面,他们利用概率退火选择(PAS)方法,通过强化学习训练控制策略。
大量实验表明,这一系统可以在复杂的 3D 地形中准确、鲁棒地导航,其强大的泛化能力确保了它在室内外各种场景和地形中的应用。
论文链接:
项目地址:
INF-LaVA:高分辨率多模态大语言模型的双视角感知
随着数据可用性和计算资源的进步,多模态大语言模型(MLLM)已在各个领域大显身手。 然而,MLLM 中视觉编码器的二次方复杂性限制了输入图像的分辨率。 目前大多数方法都是通过将高分辨率图像裁剪成较小的子图像,然后由视觉编码器独立处理。尽管能捕捉到足够的局部细节,但这些子图像缺乏全局背景,无法相互影响。
为实现有效的高分辨率图像感知,来自厦门大学的研究团队提出了一种新型 MLLM——INF-LaVA。INF-LaVA 包含两个创新组件—— 双视角裁剪模块(DCM),确保每个子图像都包含局部视角的连续细节和全局视角的综合信息;双视角增强模块(DEM),以实现全局和局部特征的相互增强,从而使 INF-LaVA 能够通过同时捕捉详细的局部信息和全面的全局背景来有效处理高分辨率图像。
广泛的消融研究验证了这些组件的有效性,对各种基准的实验表明,INF-LaVA 的性能优于现有的 MLLM。
论文链接:
GitHub 地址:
T2V-CompBench:首个合成文生视频模型定制基准
文生视频(T2V)模型已经取得了长足的进步,但它们将不同对象、属性、动作和运动合成到视频中的能力仍有待开发。以往的文生视频基准也忽略了这一重要的评估能力。
在这项工作中,来自香港大学、香港中文大学和华为的研究团队,首次对合成文本到视频生成进行了系统研究,提出了首个为合成文本到视频生成量身定制的基准 T2V-CompBench。T2V-CompBench 涵盖了合成的各个方面,包括一致的属性绑定、动态属性绑定、空间关系、动作绑定、对象交互和生成计算。 他们进一步精心设计了基于 MLLM 的指标、基于检测的指标和基于跟踪的指标等评价指标,这些指标能更好地反映七个拟议类别的合成文本到视频的生成质量,其包含 700 个文本提示。 他们通过与人工评估的相关性验证了所建议指标的有效性。
他们还对各种文本到视频生成模型进行了基准测试,并对不同模型和不同合成类别进行了深入分析。他们发现,合成文本到视频的生成对于当前的模型来说极具挑战性。
论文链接:
项目地址:
RedAgent:可生成上下文感知越狱提示的多智能体 LLM 系统
最近,GPT-4 等大语言模型(LLM)已被集成到 Code Copilot 等许多实际应用中。这些应用大大扩展了 LLM 的攻击面,使其面临各种威胁。其中,通过越狱提示诱发毒性反应的越狱攻击引发了严重的安全问题。为了识别这些威胁,越来越多的红队方法通过制作越狱提示来模拟潜在的对抗场景。然而,现有的红队方法并没有考虑到 LLM 在不同场景下的独特漏洞,因此很难调整越狱提示来发现特定场景下的漏洞。同时,这些方法仅限于使用一些突变操作来完善越狱模板,缺乏适应不同场景的自动化和可扩展性。
为了实现上下文感知的高效红队,来自浙江大学的研究团队及其合作者将现有攻击抽象和建模为一个连贯的概念,即“越狱策略”,并提出了一个多智能体 LLM 系统——RedAgent,利用这些策略生成上下文感知的越狱提示。通过对附加内存缓冲区中的上下文反馈进行自我反思,RedAgent 不断学习如何利用这些策略在特定上下文中实现有效越狱。
广泛的实验证明,该系统只需五次查询就能越狱大多数黑盒 LLM,将现有红队越狱方法的效率提高了两倍。此外,RedAgent 还能更高效地越狱定制的 LLM 应用程序。通过生成针对 GPT 上应用程序的上下文感知越狱提示,他们发现了这些现实世界应用程序的 60 个严重漏洞,每个漏洞仅需两次查询。
论文链接:
7.23
Falcon2-11B 技术报告
Technology Innovation Institute 推出了一个在超过五万亿 token 上训练的基础模型 Falcon2-11B 及其多模态版本 Falcon2-11B-vlm。他们介绍了在 Falcon2-11B 训练过程中的发现,该训练采用了多阶段方法,其中早期阶段根据上下文的长度进行区分,最后阶段则使用了高质量数据集。
此外,他们还报告了在训练中期将 batch 规模扩大一倍的效果,以及学习率对训练损失峰值的影响。基础模型的下游任务在既定基准上进行了评估,包括多语言和代码数据集。基础模型在所有任务中都表现出很强的泛化能力,这使其适合下游微调使用案例。
对于 Falcon2-11B-vlm,他们展示了其在多个基准上的表现,并表明与类似规模的开源模型相比,这一模型获得了更高的平均分。
论文链接:
苹果推出视频大语言模型 SlowFast-LaVA
苹果公司推出的 SlowFast-LaVA(简称 SF-LaVA)是一种无需训练的视频大语言模型(LLM),它可以在不超出常用 LLM 的 token 预算的情况下,同时捕捉详细的空间语义和长距离的时间上下文。
为此,模型采用了双流 SlowFast 输入设计,以有效的方式聚合采样视频帧的特征。具体来说,Slow 路径以较低的帧速率提取特征,同时尽可能多地保留空间细节(例如,使用 24x24 token);Fast 路径以较高的帧速率运行,但使用较大的空间池化步长(例如,下采样 6 倍)来关注运动线索。因此,这种设计能够充分捕捉有利于理解视频细节的空间和时间特征。
实验结果表明,SF-LaVA 在各种视频任务中的表现都优于现有的免训练方法。在某些基准测试中,SF-LaVA 的性能可与在视频数据集上进行微调的 SOTA 视频 LLM 媲美,甚至更好。
论文链接:
谷歌推出可操纵的多目标微调通用框架 CLP
基于奖励的微调对于将语言政策与预期行为(如创造性和安全性)对齐至关重要。这方面的一个关键挑战是开发可操纵的语言模型,以灵活高效的方式权衡多个(相互冲突的)目标。
谷歌团队推出了一种针对多个目标对语言模型进行微调的通用框架 CLP。在多任务训练和参数高效微调技术的基础上,CLP 可以学习可操纵的模型,从而在推理时有效地权衡相互冲突的目标。值得注意的是,这并不需要训练或维护多个模型来实现不同目标之间的权衡。
一系列广泛的实验和分析表明,CLP 框架所学习的可操纵模型优于目前 SOTA 多目标微调方法,并在帕累托(Pareto)上占优势。
论文链接:
GET-Zero:用于零样本实体泛化的图形实体 transformer
来自斯坦福大学的研究团队推出了一种用于学习体现感知控制策略的模型架构和训练程序 GET-Zero,该架构无需重新训练即可立即适应新的硬件变化。
团队提出了图形实体 transformer(GET),它利用体现图的连接性作为注意力机制中的学习结构偏差。团队利用行为克隆技术,将特定实体专家策略中的演示数据提炼为shi'ti感知的 GET 模型,该模型以机器人的硬件配置为条件做出控制决策。
研究团队对一项灵巧的手部物体旋转任务进行了案例研究,使用了去掉关节和延长连接长度的四指机械手的不同配置。通过使用 GET 模型和自建模损失,GET-Zero 能够对图形结构和链接长度的未知变化进行零样本泛化,比基准方法提高了 20%。
论文链接:
GitHub链接:
项目地址:
浙大团队推出 Odyssey:让智能体掌握开放世界技能
最近的一些研究深入探讨了如何构建适用于开放世界具身环境(如 Minecraft)的通用型智能体。尽管取得了一些成果,但现有工作主要集中在解决基本的程序任务上,如收集材料和制作工具,并将获取钻石任务视为最终目标。这种局限性源于智能体可采取的行动范围较窄,要求它们从头开始学习有效的长远策略。因此,在开放世界中发现多样化的游戏机会变得极具挑战性。
为此,来自浙江大学和浙大城市学院的研究团队推出了一个新的框架 Odyssey,其能让基于大语言模型(LLM)的智能体掌握开放世界技能,探索广阔的 Minecraft 世界。
Odyssey 包括三个关键部分:(1) 带有开放世界技能库的交互式智能体,该技能库包括 40 种原始技能和 183 种组合技能。(2) 一个经过微调的 LLaMA-3 模型,该模型在一个大型 QA 数据集上经过训练,该数据集包含 390k+ 指令条目,这些指令条目来自 Minecraft Wiki。(3) 新的开放世界基准包括数千个长期规划任务、数十个动态即时规划任务和一个自主探索任务。
大量实验证明,Odyssey 框架能有效评估智能体的规划和探索能力。
论文链接:
GitHub链接:
牛津团队推出零样本音频描述框架,无需额外训练
在这项工作中,来自牛津大学的研究团队旨在以无需训练的方式生成电影和电视剧的音频描述(AD),他们利用视觉语言模型(VLM)和大语言模型(LLM)为这项任务开发了视觉和文本 prompt 策略。
他们的贡献包括三个方面:(1) 证明了如果通过视觉指示直接 prompt 字符信息,VLM 可以成功地命名和指代字符,而无需任何微调;(2) 开发了一个分两个阶段生成 AD 的过程,第一阶段要求 VLM 全面描述视频,第二阶段利用 LLM 将密集的文本信息总结为一个简洁的 AD 句子;(3) 制定了一个新的电视音频描述数据集。
此方法被命名为 AutoAD-Zero,在生成电影和电视剧的 AD 方面表现出色,甚至可与某些根据真实AD 微调的模型相媲美,获得了 SOTA 级的 CRITIC 分数。
论文链接:
项目地址:
LongVideoBench:长上下文交错视频语言理解基准
大型多模态模型(LMM)正在处理越来越长、越来越丰富的输入。尽管取得了进展,但很少有公共基准可用于衡量这种发展。
为了缩小这一差距,研究团队推出了 LongVideoBench,这是一个以长达一小时的视频语言交错输入为特色的问题解答基准。此基准包括 3763 个不同长度的网络收集视频及其字幕,涉及不同的主题,用于全面评估 LMM 在长期多模态理解方面的表现。
为此,团队将主要挑战解释为从长输入中准确检索和推理详细的多模态信息。因此,他们制定了一项新颖的视频 QA 任务,称为“引用推理”(referring reasoning)。具体来说,作为问题的一部分,它包含一个引用相关视频上下文的引用查询,称为引用上下文。然后,模型需要从参考上下文中推理出相关的视频细节。按照引用推理的范例,团队在 17 个细粒度类别中整理出了 6678 道由人类标注的多选题,为长视频理解建立了最全面的基准之一。
评估表明,LongVideoBench 即使对 SOAT 专有模型(如 GPT-4o、Gemini-1.5-Pro、GPT-4-Turbo)也提出了重大挑战,而开源模型的性能差距更大。此外,结果表明,只有当模型能够处理更多帧时,它们在基准测试中的性能才会提高,因此 LongVideoBench 被定位为评估未来一代长上下文 LMM 的重要基准。
论文链接:
Cinemo:利用运动扩散模型制作一致且可控的图像动画
扩散模型已在图像动画领域取得了长足的进步。然而,如何与输入静态图像的详细信息(如输入静态图像的风格、背景和对象)保持时空一致性,并在文本提示的引导下确保动画视频叙事的流畅性,仍然具有挑战性。
面对这一挑战,来自莫纳什大学、上海 AI Lab 和南京邮电大学的研究团队提出了 Cinemo,这是一种新颖的图像动画方法,旨在实现更好的运动可控性以及更强的时间一致性和流畅性。
总的来说,研究团队在 Cinemo 的训练和推理阶段提出了三种有效策略来实现他们的目标。在训练阶段,Cinemo 主要学习运动残差的分布,而不是通过运动扩散模型直接预测后续运动。此外,他们还提出了一种基于结构相似性指数的策略,使 Cinemo 能够更好地控制运动强度。在推理阶段,引入了一种基于离散余弦变换的噪声细化技术,以减轻运动突变。这三种策略使 Cinemo 能够产生高度一致、平滑和运动可控的结果。
与之前的方法相比,Cinemo 提供了更简单、更精确的用户可控性。通过与几种 SOTA 方法(包括商业工具和研究方法)在多个指标上的对比实验,证明了此方法的有效性和优越性。
论文链接:
7.22
快手团队推出高效视觉语言模型 EVLM
在多模态语言模型(MMLM)领域,大多数方法都建立在类似于 LLaVA 的架构上。这些模型使用单层 ViT 特征作为视觉 prompt,将其与文本 token 一起直接输入语言模型。但是,在处理长序列的视觉信号或视频等输入时,语言模型的自注意力机制会导致大量的计算开销。此外,使用单层 ViT 特征使得大语言模型(LLM)难以完全感知视觉信号。
为此,来自快手的研究团队提出了一种高效的多模态语言模型,以最大限度地降低计算成本,同时使模型尽可能全面地感知视觉信号。他们的方法主要包括:(1) 采用与 Flamingo 类似的交叉注意力图像-文本交互。(2) 利用分层 ViT 特征。(3) 引入混合专家(MoE)机制,以提高模型的有效性。
此模型在公开的多模态基准测试中取得了具有竞争力的成绩,并在图像字幕和视频字幕等任务中表现出色。
论文链接:
苹果团队推出 LazyLLM:动态剪枝 token ,实现高效长上下文 LLM 推理
基于 transformer 的大语言模型(LLM)推理包括两个连续阶段:(1) 计算 prompt 的键值缓存并生成第一个 token 的预填充阶段,(2) 生成后续 token 的解码阶段。
对于长 prompts,必须在预填充阶段计算所有 token 的键值缓存,这会大大增加生成第一个 token 所需的时间。因此,预填充阶段可能会成为生成过程的瓶颈。问题是,是否所有 prompt token 都是生成第一个 token 所必需的。
为此,来自苹果公司的研究团队提出了一种名为 LazyLLM 的新方法。它可以在预填充和解码阶段选择性地计算对预测下一个 token 很重要的 token 键值。与一次性剪枝 prompt 的静态剪枝方法相反,LazyLLM 允许语言模型在不同的生成步骤中动态地从上下文中选择不同的 token 子集,即使这些 token 子集可能在之前的步骤中被剪枝过。
在各种任务的标准数据集上进行的大量实验表明, LazyLLM 是一种通用方法,可以与现有的语言模型无缝集成,在不进行微调的情况下显著加快生成速度。例如,在多文档问答任务中,LazyLLM 将 LLama 2 7B 模型的预填充阶段加快了 2.34 倍,同时保持了准确性。
论文链接:
Stability AI 推出 Stable Audio Open
开放的生成模型对社区来说至关重要,它允许进行微调,并作为展示新模型的基准。然而,目前大多数文本转音频模型都是私有的,艺术家和研究人员无法在此基础上建立模型。
为此,Stability AI 公开了一个新的开放权重文本-音频模型的架构和训练过程,该模型是利用 Creative Commons 数据训练而成的。
评估结果表明,该模型在各种指标上的表现都能与最先进的模型相媲美。值得注意的是,所报告的 FDopenl3 结果(衡量各代产品的逼真度)展示了该模型在 44.1kHz 下进行高质量立体声合成的潜力。
论文链接:
GitHub 地址:
Google DeepMind:利用 JumpReLU 稀疏自动编码器提高重建保真度
稀疏自动编码器(SAE)是一种很有前途的无监督方法,可用于识别语言模型(LM)激活中的因果相关和可解释的线性特征。为了在下游任务中发挥作用,SAE 需要忠实地分解 LM 激活;然而,为了具有可解释性,分解必须是稀疏的。这是两个相互矛盾的目标。
来自 Google DeepMind 的研究团队推出了 JumpReLU SAE,与 Gated 和 TopK SAE 等其他最新技术相比,JumpReLU SAE 在 Gemma 2 9B 激活的给定稀疏程度下实现了重构保真度 SOTA。研究团队还通过手动和自动可解释性研究表明,这种改进不会以牺牲可解释性为代价。
JumpReLU SAE 是对 vanilla (ReLU) SAE 的简单修改,研究团队用不连续的 JumpReLU 激活函数取代了 ReLU,而且训练和运行的效率也很高。通过有原则地利用直通估计器(STEs),他们展示了如何在 SAE 的前向传递中引入不连续 JumpReLU 函数的情况下,仍能有效地训练 JumpReLU SAE。同样,他们利用 STE 直接将 L0 训练成稀疏的,而不是在 L1 等上进行训练,从而避免了收缩等问题。
论文链接:
微软新研究:用“打破-修复”循环将语言模型对齐
最近在语言模型训练方面的创新表明,有可能创建出体积小到足以在智能手机上运行的高性能模型。随着这些模型被部署到越来越多的领域,确保将它们与人类偏好和安全考虑对齐至关重要。
在这项工作中,来自微软的研究团队介绍了对 Phi-3 系列语言模型进行安全对齐的方法。他们利用“打破-修复”循环,进行了多轮数据集整理、安全后训练、基准测试、红队测试和漏洞识别,以涵盖单轮和多轮场景中的各种危害领域。
结果表明,在各种负责任的人工智能基准测试中,这种方法不断改进了 Phi-3 模型的性能。
论文链接:
MIT 团队推出 FLUTE:查找表量化 LLM 的快速矩阵乘法
大语言模型(LLM)的部署通常受到内存带宽的限制,其中主要的瓶颈是将模型参数从 GPU 的全局内存传输到其寄存器的成本。如果与融合了去量化和矩阵运算的定制内核相结合,纯权重量化就能通过减少内存移动量来加快推理速度。
然而,为权重量化 LLM 开发高性能内核面临着巨大的挑战,尤其是当权重被压缩到非均匀分割位宽(如 3 位)并进行非均匀、查找表(LUT)量化时。
针对此挑战,来自麻省理工学院的研究团队及其合作者推出了用于 LUT 量化 LLM 的灵活查找表引擎 FLUTE,它采用离线重构量化权重矩阵的方式,最大限度地减少与解压缩相关的位操作,并对查找表进行矢量化(vectorization)和复制,以缓解共享内存带宽限制。
在批量小于 32 和量化组大小为 128(LLM 推理中的典型值)的情况下,FLUTE 内核的速度是现有 GEMM 内核的 2-4 倍。作为 FLUTE 的一项应用,研究团队探索了基于查找表的 NormalFloat 量化的简单扩展,并将其应用于各种配置的 LLaMA3 量化,从而获得了与强基线相比具有竞争力的量化性能,同时将端到端的吞吐量提高了 1.5-2 倍。
论文链接:
GitHub地址: