输入“/”快速插入内容

清华、智谱团队推出 LongCite:让 LLM 在长上下文问答中生成精细引用|大模型论文周报(9.2-9.6)

2024年9月23日修改
清华、智谱团队推出 LongCite:让 LLM 在长上下文问答中生成精细引用
尽管目前的长上下文大语言模型(LLM)在回答用户基于大量文本的问题时表现出了强大的能力,但由于其回答中缺乏引用(citation),使得用户很难验证,这导致了人们对其潜在幻觉的可信度的担忧。
在这项工作中,来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答,从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite,这是一种自动基准,用于评估当前 LLM 在带引用的长上下文问答(LQAC)中的性能,显示出相当大的改进空间。
为此,他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF(Coarse to Fine),并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后,他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B,成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。
LongBench-Cite 上的评估结果表明,他们训练的模型在引用质量方面达到了 SOTA,超过了包括 GPT-4o 在内的先进专有模型。
论文链接:
GitHub 地址:
想要第一时间获取每日热门大模型论文?
扫描下方二维码申请入群,请务必备注「姓名+职业+公司/学校」,否则不予通过。
ps:我们会持续分享日报、周报、月报,敬请期待~
LongLLaVA:首个混合 Mamba 和 Transformer 的多模态大语言模型
扩展多模态大语言模型(MLLM)的长上下文能力对于视频理解、高分辨率图像理解和多模态智能体(agent)至关重要。这涉及一系列系统优化工作,包括模型架构、数据构建和训练策略,尤其要解决图像越多性能越差、计算成本越高等难题。
在这项工作中,来自香港中文大学、深圳大数据研究院的研究团队,将模型架构调整为 Mamba 和 Transformer 模块的混合体,在数据构建时考虑了多个图像之间的时间和空间依赖关系,并采用了渐进式训练策略。他们发布的 LongLLaVA(Long-Context Large Language and Vision Assistant)模型是第一个混合 MLLM,在效率和效果之间取得了更好的平衡。
LongLLaVA 不仅在各种基准测试中取得了具有竞争力的结果,而且还保持了高吞吐量和低内存消耗。特别是,它可以在单个 A100 80GB GPU 上处理近千幅图像,为各种任务展示了广阔的应用前景。
论文链接:
GitHub 地址:
OLMoE:100% 开放的混合专家语言模型
来自艾伦人工智能研究所、Contextual AI 的研究团队及其合作者,推出了一个完全开放的 SOTA 语言模型 OLMoE,它利用了稀疏混合专家(MoE)机制。
OLMoE-1B-7B 拥有 70 亿参数,但每个输入 token 仅使用 10 亿参数。他们在 5 万亿个 tokens 上对其进行预训练,并进一步创建了 OLMoE-1B-7B-Instruct。
他们的模型在性能上超越了所有具有相似激活参数的现有模型,甚至超过了如 Llama2-13B-Chat 和 DeepSeekMoE-16B 这样的大模型。
他们展示了关于 MoE 训练的各种实验,分析了该模型中的路由机制,显示出高度的专业化,并将他们工作的所有方面开源,包括模型权重、训练数据、代码和日志。
论文链接:
GitHub 地址:
LongRecipe:扩展 LLM 上下文窗口的高效训练策略
大语言模型(LLM)在处理长上下文任务时面临巨大挑战,这是由于它们在预训练期间有效上下文窗口大小有限,这限制了它们在扩展序列上的泛化能力。同时,通过后训练扩展 LLM 的上下文窗口非常耗费资源。
为了解决这一问题,来自新加坡国立大学的研究团队及其合作者提出了一种用于扩展 LLM 上下文窗口的高效训练策略 LongRecipe,包括影响性标记分析、位置索引转换和训练优化策略。
LongRecipe 能在保持训练效率的同时模拟长序列输入,并显著提高了模型对长距离依赖关系的理解。在三种类型的 LLM 上的实验表明,LongRecipe 可以在仅需要目标上下文窗口大小 30% 的情况下利用长序列,且与全序列训练相比减少了超过 85% 的计算训练资源。此外,LongRecipe 还保留了原始 LLM 在一般任务上的能力。最终,他们可以将开源 LLM 的有效上下文窗口从 8k 扩展到 128k,只需使用一个带有 80G 内存的单个 GPU 进行一天的专业训练,就能实现接近 GPT-4 的性能。
论文链接:
GitHub 地址:
昆仑万维推出可播放音乐的 FLUX
昆仑万维推出了一种基于扩散的整流 Transformers 的简单扩展,用于文本到音乐生成,称为 FluxMusic。一般来说,随着先进 Flux1 模型的设计,他们将它转换到梅尔频谱的潜在 VAE 空间。这包括首先对双文本音乐流应用一系列独立的注意力,然后是一个堆叠的单一音乐流,用于去噪的片段预测。
他们使用了多个预训练的文本编码器来充分捕捉标题的语义信息以及推断的灵活性。在此过程中,结合时间步嵌入的粗略文本信息被用于调制机制中,而细粒度的文本细节则与音乐片段序列连接作为输入。
通过深入的研究,他们展示了优化架构下的整流流训练在文本到音乐任务上显著优于已建立的扩散方法,这一点通过各种自动指标和人类偏好评估得到了证明。
论文链接:
GitHub 地址:
VIDEOLLAMB:采用递归记忆桥的长上下文视频理解
大规模视频语言模型最近的发展已经显示出实时规划和详细互动的显著潜力。然而,它们的高计算需求以及标注数据集的稀缺性限制了它们对学术研究人员的实用性。
为此,来自北京通用人工智能研究院、加州大学以及北京大学的研究团队提出了一个新颖的框架 VideoLLaMB,它利用桥接层中的时空记忆 token 对整个视频序列以及历史视觉数据进行编码,有效地保持了语义连续性并提高了各种任务下的模型性能。这种方法包括递归记忆 tokens 和一个 SceneTilling 算法,该算法将视频分割成独立的语义单元以保持语义完整性。
实证研究表明,VideoLLaMB 在现有视频语言模型中显著领先,其在三个 VideoQA 基准测试中比竞争对手高出 5.5 个百分点,在以自我为中心的规划任务中高出 2.06 个百分点。在 MVBench 上的综合结果显示,VideoLLaMB-7B 比之前的同级别 LLM 的 7B 模型取得了明显更好的结果。值得注意的是,即使视频长度增加至 8 倍,它也保持了与 PLLaVA 一样鲁棒的性能。
此外,在他们专门制定的 NIAVH 基准测试中的帧检索结果进一步验证了 VideoLLaMB 在准确识别长视频中特定帧的能力。他们的 SceneTilling 算法还使得直接生成流式视频字幕成为可能,无需额外的训练。在效率方面,VideoLLaMB 在训练时使用 16 帧,可以在单个英伟达 A100 GPU 上支持多达 320 帧,并具有线性的 GPU 内存扩展,确保了高性能和成本效益,从而为长视频语言模型在学术和应用领域奠定了新的基础。
论文链接:
GitHub 地址:
LinFusion:1 个 GPU,1 分钟,16K 图像
现代扩散模型,尤其是那些使用基于 Transformer 的 UNet 进行去噪的模型,高度依赖自注意力操作来管理复杂的空间关系,从而实现了令人印象深刻的生成性能。然而,现有的范式在生成高分辨率视觉内容方面面临着重大挑战,因为它相对于空间 token 数量的时间和内存复杂度是二次方的。
为了解决这个限制,来自新加坡国立大学的研究团队提出了一种新颖的线性注意力机制作为替代方案。具体来说,他们从最近引入的具有线性复杂度的模型(如 Mamba、Mamba2 和 Gated Linear Attention)开始探索,并确定了两个关键特性——注意力归一化和非因果推理——这些特性提升了高分辨率视觉生成的性能。
基于这些洞察,他们提出了一种广义线性注意力范式,它作为广泛流行的线性 token 混合器的一种低秩近似。为了节省训练成本并更好地利用预训练模型,他们从预训练的 StableDiffusion(SD)初始化该模型并提炼知识。
结果发现,经过相对较少的训练后,提炼出的模型,即 LinFusion,在性能上与原始 SD 持平甚至更优,同时显著降低了时间和内存复杂度。在 SD-v1.5、SD-v2.1 和 SD-XL 上的广泛实验表明,LinFusion 提供了满意的零样本跨分辨率生成性能,能够生成如 16K 分辨率这样的高分辨率图像。此外,它与预训练的 SD 组件高度兼容,如 ControlNet 和 IP-Adapter,无需进行适配。
论文链接:
GitHub 地址:
由 LLM 导演的组合式 3D 感知视频生成
通过使用强大的生成模型和大规模互联网数据,文本到视频生成领域已经取得了重大进展。然而,精确控制生成视频中个别概念,如特定角色的动作和外观以及视角的移动,仍然存在实质性的挑战。
为此,来自中国科学技术大学、微软亚洲研究院和上海交通大学的研究团队提出了一种新颖的范式,该范式分别以 3D 表示生成每个概念,然后使用大语言模型(LLM)和 2D 扩散模型的先验知识将它们组合起来。具体来说,给定一个输入文本 prompt,他们的方案包括三个阶段:1)他们利用 LLM 作为导演,首先将复杂的查询分解为几个子提示,这些子提示指示视频中的单个概念(比如,场景、物体、动作),然后让 LLM 调用预训练的专家模型以获取相应概念的 3D 表示;2)为了组合这些表示,他们提示多模态 LLM 生成关于物体轨迹的尺度和坐标的粗略指导;3)为了使生成的帧符合自然图像分布,他们进一步利用 2D 扩散先验,并使用分数蒸馏采样来细化组合。
广泛的实验表明,他们的方法可以从文本生成高保真视频,具有多样的动作和对每个概念的灵活控制。
论文链接:
项目地址:
MIT 团队提出上下文归因方法 ContextCite
语言模型在生成回答时是如何使用提供的上下文信息的?我们能否推断出一个特定生成的陈述实际上是基于上下文,还是一个误解,或者完全是编造的?
为了帮助回答这些问题,麻省理工学院(MIT)团队提出了上下文归因问题:确定是上下文的哪些部分(如果有的话)导致模型生成了一个特定的陈述。然后,他们提出了一种简单且可扩展的上下文归因方法 ContextCite,它可以应用于任何现有的语言模型之上。
最后,他们通过三个应用展示了 ContextCite 的实用性:(1)帮助验证生成的陈述,(2)通过修剪上下文来提高回应的质量,(3)检测中毒攻击。
论文链接:
GitHub 地址:
OD-VAE:用于改进潜在视频扩散模型的全维视频压缩器
变分自编码器(VAE)将视频压缩成潜在表示,是潜在视频扩散模型(LVDMs)的关键前置组件。在相同的重建质量下,VAE 对视频的压缩越充分,LVDMs 的效率就越高。然而,大多数 LVDMs 使用的是 2D 图像 VAE,其对视频的压缩仅限于空间维度,而在时间维度上往往被忽略。如何在 VAE 中执行视频的时间压缩以获得更简洁的潜在表示,同时保证准确的重建,这一问题很少被探索。
为了填补这一空白,来自北京大学和鹏城实验室的研究团队提出了一个全维度压缩 VAE,名为 OD-VAE,它可以在时间和空间上压缩视频。尽管 OD-VAE 更充分的压缩给视频重建带来了巨大的挑战,但通过他们的精心设计,它仍然可以实现高重建精度。为了在视频重建质量与压缩速度之间获得更好的权衡,他们介绍并分析了 OD-VAE 的四个变体。
此外,他们还设计了一种新颖的尾部初始化方法来更高效地训练 OD-VAE,并提出了一种新颖的推理策略,使 OD-VAE 能够处理任意长度的视频,同时只占用有限的 GPU 内存。在视频重建和基于 LVDM 的视频生成上的综合实验证明了他们提出方法的有效性和效率。
论文链接:
GitHub 地址:
Follow-Your-Canvas:基于扩散的更高分辨率的视频外绘
在这项工作中,来自腾讯和香港科技大学的研究团队及其合作者,探讨了利用广泛内容生成实现更高分辨率的视频外绘。他们指出现有方法在尝试大幅外绘视频时面临的常见问题:生成低质量内容以及 GPU 内存的限制。
为了解决这些挑战,他们提出了一个基于扩散的方法,称为“Follow-Your-Canvas”。该方法基于两个核心设计。首先,他们不是采用常见的“单次绘制”外绘方式,而是将任务分布在空间窗口上,并无缝地合并它们。这使他们能够外绘任意大小和分辨率的视频,而不受 GPU 内存的限制。其次,将源视频及其相对位置关系注入到每个窗口的生成过程中。这使得每个窗口内生成的空间布局与源视频协调一致。结合这两个设计,使他们能够在保持空间和时间一致性的同时,生成富含内容的高分辨率外绘视频。
Follow-Your-Canvas 在大规模视频外绘方面表现出色,例如从 512×512 到 1152×2048(9 倍),同时产生高质量且具有美感的成果。它在各种分辨率和规模设置中取得了最佳效果。
论文链接:
GitHub 地址:
Mini-Omni:首个用于实时语音交互的完全端到端开源模型
GPT-4o 实现了与人类的实时对话,展示了接近人类的自然流畅性。这种人机交互要求模型具有直接利用音频模态进行推理并以流式方式生成输出的能力。然而,这仍然超出了当前学术模型的能力范围,因为它们通常依赖于额外的 TTS 系统来进行语音合成,从而导致不理想的延迟。
在这项工作中,研究团队推出了一种基于音频的端到端对话模型 Mini-Omni,其能够进行实时语音交互。为了实现这一功能,他们提出了一种基于文本指令的语音生成方法,并在推理过程中采用 batch 并行策略,从而进一步提高性能。这一方法还有助于保留原始模型的语言能力,并将退化程度降到最低,从而使其他工作能够建立实时交互能力。他们称这种训练方法为“Any Model Can Talk”。
他们还推出了 VoiceAssistant-400K 数据集,用于微调针对语音输出进行优化的模型。据介绍,Mini-Omni 是第一个用于实时语音交互的完全端到端开源模型。
论文链接:
GitHub 地址:
“金字塔”扩散模型:精细、大规模 3D 场景生成
扩散模型在生成 2D 图像和小型 3D 物体方面取得了显著效果。然而,将扩散模型应用于大规模 3D 场景的合成却鲜有探索。这主要是由于 3D 场景数据(尤其是室外场景)固有的复杂性和巨大的体积,以及综合真实世界数据集的有限性,使得训练一个稳定的场景扩散模型具有挑战性。
在这项工作中,来自西南交通大学、香港城市大学、加州大学莫塞德分校和英伟达的研究团队,探讨了如何利用从粗到细的范式有效生成大规模 3D 场景。他们提出了“金字塔离散扩散模型”(PDD)框架,其采用尺度变化的扩散模型,来逐步生成高质量的室外场景。
PDD 的实验结果证明了他们在无条件和有条件生成 3D 场景方面的成功探索。他们进一步展示了 PDD 模型的多尺度架构所带来的数据兼容性:在一个数据集上训练的 PDD 模型可以很容易地在另一个数据集上进行微调。
论文链接:
GitHub 地址:
项目地址:
CURLoRA:大模型微调新方法,解决两大难题
在这项工作中,Muhammad Fawi 提出了一种微调大语言模型(LLM)的新方法——CURLoRA,其将 CUR 矩阵分解与低秩自适应(LoRA)结合,解决了 LLM 微调中的两个关键难题:减轻持续学习过程中的灾难性遗忘和减少可训练参数的数量。
他对 CUR 分解过程提出了一个修改方案,利用逆概率来选择列和行,作为隐式正则化,并将 U 矩阵初始化为零矩阵,仅对其进行微调。通过多个数据集的实验证明,CURLoRA 在减少灾难性遗忘方面优于标准 LoRA,在保持模型稳定性和跨任务性能的同时,显著减少了可训练参数的数量。
研究结果表明,与 LoRA 相比,CURLoRA 在不断微调的过程中,在保持基础模型的易错性分数不变的情况下,实现了非常好且稳定的任务准确性,尤其是在数据有限的情况下。
论文链接:
GitHub 地址:
VLM4Bio:评估视觉大语言模型在机体生物学领域的有效性
图像可以被用来记录地球生物的多样性,为加速机体生物学领域的科学发现提供了新的机遇,特别是随着视觉大语言模型(VLM)的出现。那么,预先训练好的视觉语言模型能否帮助科学家回答一系列与生物相关的问题,而无需额外的微调呢?
在这项工作中,来自弗吉尼亚理工大学的研究团队及其合作者,使用新数据集 VLM4Bio 评估了 12 种 SOTA VLM 在机体生物学领域的有效性,该数据集由 469K 个问答(QA)对组成,涉及 30K 张图片,分别来自鱼类、鸟类和蝴蝶这三类生物,涵盖五项生物相关任务。他们还探索了应用提示技术和推理幻觉测试对 VLM 性能的影响,为当前 SOTA VLM 利用图像回答生物相关问题的能力提供了新的启示。
论文链接:
GitHub 地址:
SciLitLLM:如何让 LLM 理解科学文献?
科学文献理解对于提取目标信息和获得洞察力至关重要,从而极大地推动科学发现。尽管大语言模型(LLM)取得了巨大成功,但它们在科学文献理解方面仍面临挑战,主要原因是:(1)缺乏科学知识;(2)不熟悉专门的科学任务。
为了开发专门用于科学文献理解的 LLM,来自深势科技、中国科学技术大学的研究团队提出了一种混合策略,将持续预训练(CPT)和监督微调(SFT)结合起来,以同时注入科学领域知识并增强特定领域任务的指令遵循能力。应用这一策略,他们推出了 SciLitLLM,专门用于科学文献理解。这些模型在科学文献理解基准测试中表现出良好的性能。
主要工作包括:(1) 提出了一个有效的框架,将 CPT 和 SFT 整合在一起,使 LLM 适应于科学文献理解,该框架也可以很容易地适用于其他领域; (2) 提出了一种基于 LLM 的合成方法来生成多样化和高质量的科学指令,从而产生了一种新的指令集SciLitIns,用于在代表性较低的科学领域中进行有监督的微调。
论文链接:
“文生图”新研究:同时实现身份保持和文本对齐
文本到图像个性化技术的最新进展使得高质量、可控的图像合成成为可能。然而,现有的方法仍难以在身份保持和文本对齐之间取得平衡。
来自中山大学和香港理工大学的研究团队认为:生成与提示对齐的图像需要对提示进行精确的语义理解,这涉及在 CLIP 文本编码器中准确处理新概念与其周围上下文 token 之间的交互。
为了解决这个问题,他们的目标是将新概念正确嵌入到文本编码器的输入嵌入空间中,从而实现与现有 token 的无缝整合。
他们提出了上下文正则化(Context Regularization,CoRe),通过正则化提示符中的上下文 token 来增强新概念文本嵌入的学习。这是因为只有正确学习了新概念的文本嵌入,文本编码器才能为上下文 token 提供适当的输出向量。CoRe 可应用于任意提示,而无需生成相应的图像,从而提高了所学文本嵌入的通用性。此外,CoRe 还可以作为一种测试时(test-time)优化技术,进一步提高特定提示的生成能力。
综合实验证明,这一方法在身份保持和文本对齐方面都优于几种基准方法。
论文链接: