加载失败，

BridgeTower: 在视觉语言表示学习中建立编码器间的桥梁

2024年8月12日修改

哈工大SCIR｜阅读原文

转载请联系原作者取得授权

📌

论文名称：BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning

论文作者：徐啸，车万翔*等

原创作者：徐啸

转载须标注出处：哈工大 SCIR

0 . Take-away messages

•

提出了一个简单有效的视觉语言模型架构，BridgeTower，通过在顶层单模态层和每个跨模态层之间建立桥梁，成功地引入了不同语义层次的视觉和文本表示，从而提高了跨模态编码器中注意力头的多样性，并在各种任务上实现了突出的性能改进。

•

在公平的评估设置下，与Two-Tower架构的METER模型相比，BridgeTower 显著地提高了模型的多模态表示能力。

•

仅使用400万张图片进行视觉语言预训练，BridgeTower在各种视觉语言下游任务上取得了十分强大的性能，击败了许多用更多数据和参数进行预训练的强大模型。

•

BridgeTower可以适用于不同的视觉、文本或跨模态编码器。

1. 背景与动机

附件不支持打印

加载失败，

BridgeTower: 在视觉语言表示学习中建立编码器间的桥梁​