加载失败,

BridgeTower: 在视觉语言表示学习中建立编码器间的桥梁

2024年8月12日修改
哈工大SCIR|阅读原文
转载请联系原作者取得授权
📌
论文名称:BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning
论文作者:徐啸, 车万翔*等
原创作者:徐啸
转载须标注出处:哈工大 SCIR
0 . Take-away messages
提出了一个 简单有效 的视觉语言模型架构,BridgeTower,通过在顶层单模态层和每个跨模态层之间建立 桥梁 ,成功地引入了 不同语义层次 的视觉和文本表示,从而提高了跨模态编码器中注意力头的 多样性 ,并在各种任务上实现了 突出 的性能改进。
公平 的评估设置下,与Two-Tower架构的METER模型相比,BridgeTower 显著 地提高了模型的多模态表示能力。
使用400万张图片进行视觉语言预训练,BridgeTower在各种视觉语言下游任务上取得了十分 强大 的性能,击败了许多用 更多 数据和参数进行预训练的强大模型。
BridgeTower可以 适用 于不同的视觉、文本或跨模态编码器。
1. 背景与动机
附件不支持打印

加载失败,