输入“/”快速插入内容

ICML 2024| 大语言模型助力基于 CLIP 的分布外检测任务

2024年7月3日创建
机器之心 新闻助手|阅读原文
转载请联系原作者取得授权
当训练数据集和测试数据集的分布相同时, 机器学习 模型可以表现出优越的性能。然而在开放世界环境中,模型经常会遇到分布外(Out-of-Distribution, OOD,下称“OOD”)样本,OOD样本可能会导致模型做出不可预测的行为,而错误的后果可能是致命的,尤其是在自动驾驶等高风险场景中 [1, 2]。因此OOD检测对于保障 机器学习 模型在实际部署中的可靠性至关重要。
大多数OOD检测方法 [1, 3] 可以基于训练有素的分布内 (In-Distribution, ID) 分类器有效地检测 OOD 样本。然而,对于不同的ID数据集,它们需要重新训练分类器才能进行OOD检测。此外,这些方法仅依赖于视觉模式,而忽略了视觉图像与文本标签之间的联系。随着大规模视觉 语言模型 (Vision-Manguage Models , VLMs,例如CLIP [4])的出现,使得零样本 OOD 检测成为了可能[5]。通过构建仅具有 ID 类别标签的 文本分类 器,能够实现在无需重新训练分类器的情况下跨不同的 ID 数据集检测 OOD 样本。
尽管现有的基于CLIP的分布外检测方法展现出了令人印象深刻的性能,但是它们在遇到较难检测的分布外样本时常常会检测失败,我们认为现有仅依赖ID 类别标签构建 文本分类 器的方法很大程度上限制了 CLIP 识别来自开放标签空间样本的固有能力。如图1 (a) 所示,仅依赖ID 类别标签构建 文本分类 器的方法难以区分较难检测的OOD样本 (ID数据集:CUB-200-2011,OOD数据集:Places)。
图1. 研究动机示意图:(a) 仅依赖ID 类别标签构建 文本分类 器, (b) 使用真实OOD标签, (c) 使用LLM想象潜在的异常值暴露
在这项工作中,我们提出了一种名为Envisioning Outlier Exposure (EOE) 的分布外检测方法,该方法利用通过利用大型 语言模型 (LLM) 的专家知识和推理能力来想象潜在的异常值暴露,从而提升VLMs的OOD检测性能 (如图1 (c) 所示),同时无需访问任何实际的 OOD 数据。我们设计了 (1) 基于视觉相似性的 LLM 提示,以生成专门用于 OOD 检测的潜在异常值类标签,以及 (2) 基于潜在异常值惩罚的新评分函数,以有效区分难以识别的 OOD 样本。实验表明,EOE 在不同的 OOD 任务中实现了优越的性能,并且可以有效地扩展到 ImageNet-1K 数据集。
接下来将简要地向大家分享我们近期发表在 ICML 2024 上的分布外检测方向的研究结果。
预备知识
方法介绍
EOE旨在通过利用 LLM 生成潜在的异常值类别标签来提高零样本 OOD 检测性能。然而,由于模型部署时遇到的OOD类别是未知的,那么,我们应该如何引导 LLM 生成所需的异常值类别标签?在获取异常值类别标签后,我们如何才能更好地区分 ID 和 OOD 样本?为了解决这些问题,我们提出了基于视觉相似性原则设计的专门针对 OOD 检测的 LLM 提示,并引入了一种新颖的评分函数来更好地区分ID/OOD样本。我们方法的总体框架如图 2所示。
图2. EOE总体框架图