加载失败,
ICML 2024| 大语言模型助力基于 CLIP 的分布外检测任务
ICML 2024| 大语言模型助力基于 CLIP 的分布外检测任务
2024年7月3日创建
当训练数据集和测试数据集的分布相同时, 机器学习 模型可以表现出优越的性能。然而在开放世界环境中,模型经常会遇到分布外(Out-of-Distribution, OOD,下称“OOD”)样本,OOD样本可能会导致模型做出不可预测的行为,而错误的后果可能是致命的,尤其是在自动驾驶等高风险场景中 [1, 2]。因此OOD检测对于保障 机器学习 模型在实际部署中的可靠性至关重要。
大多数OOD检测方法 [1, 3] 可以基于训练有素的分布内 (In-Distribution, ID) 分类器有效地检测 OOD 样本。然而,对于不同的ID数据集,它们需要重新训练分类器才能进行OOD检测。此外,这些方法仅依赖于视觉模式,而忽略了视觉图像与文本标签之间的联系。随着大规模视觉 语言模型 (Vision-Manguage Models , VLMs,例如CLIP [4])的出现,使得零样本 OOD 检测成为了可能[5]。通过构建仅具有 ID 类别标签的 文本分类 器,能够实现在无需重新训练分类器的情况下跨不同的 ID 数据集检测 OOD 样本。
尽管现有的基于CLIP的分布外检测方法展现出了令人印象深刻的性能,但是它们在遇到较难检测的分布外样本时常常会检测失败,我们认为现有仅依赖ID 类别标签构建 文本分类 器的方法很大程度上限制了 CLIP 识别来自开放标签空间样本的固有能力。如图1 (a) 所示,仅依赖ID 类别标签构建 文本分类 器的方法难以区分较难检测的OOD样本 (ID数据集:CUB-200-2011,OOD数据集:Places)。
附件不支持打印
图1. 研究动机示意图:(a) 仅依赖ID 类别标签构建 文本分类 器, (b) 使用真实OOD标签, (c) 使用LLM想象潜在的异常值暴露