输入“/”快速插入内容

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？

2024年8月12日修改

机器之心｜阅读原文

转载请联系原作者取得授权

本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来，团队着眼于目前人工智能发展的瓶颈问题，探索原创性人工智能理论和关键技术，在智能算法的对抗安全理论和方法研究中处于国际领先水平，深入研究深度学习的对抗鲁棒性和数据利用效率等基础共性问题。相关工作获吴文俊人工智能自然科学一等奖，发表CCF A类论文100余篇，研制开源的ARES对抗攻防算法平台（https://github.com/thu-ml/ares），并实现部分专利产学研转化落地应用。

以GPT-4o为代表的多模态大 语言模型 （MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应用领域，掀起了一场技术革命。​

然而，多模态大模型是否安全可靠呢？

common.docs_name - LarkCCM_Docs_Menu_Image

图1 对抗攻击GPT-4o示例

如图1所示，通过对抗攻击修改图像像素，GPT-4o将新加坡的鱼尾狮雕像，错误识别为巴黎的埃菲尔铁塔或是伦敦的大本钟。这样的错误目标内容可以随意定制，甚至超出模型应用的安全界限。​

图2 Claude3越狱示例

而在越狱攻击场景下，虽然Claude成功拒绝了文本形式下的恶意请求，但当用户额外输入一张纯色无关图片时，模型按照用户要求输出了虚假新闻。这意味着多模态大模型相比大 语言模型 ，有着更多的风险挑战。​

除了这两个例子以外，多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险，会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生，还是普遍存在？不同多模态大模型的可信性又有何区别，来源何处？​

近日，来自清华、北航、上交和 瑞莱智慧 的研究人员联合撰写百页长文，发布名为MultiTrust的综合 基准 ，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。​

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？​

清华领衔发布多模态评估MultiTrust：GPT-4可信度有几何？