输入“/”快速插入内容

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

2024年8月12日修改
机器之心|阅读原文
转载请联系原作者取得授权
本工作由 清华大学 朱军 教授领衔的基础理论创新团队发起。长期以来,团队着眼于目前 人工智能 发展的瓶颈问题,探索原创性 人工智能 理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,深入研究 深度学习 的对抗鲁棒性和数据利用效率等基础共性问题。相关工作获吴文俊 人工智能 自然科学一等奖,发表CCF A类论文100余篇,研制开源的ARES对抗攻防算法平台(https://github.com/thu-ml/ares),并实现部分专利产学研转化落地应用。
以GPT-4o为代表的多模态大 语言模型 (MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀起了一场技术革命。
然而,多模态大模型是否安全可靠呢?
如图1所示,通过对抗攻击修改图像像素,GPT-4o将新加坡的鱼尾狮雕像,错误识别为巴黎的埃菲尔铁塔或是伦敦的大本钟。这样的错误目标内容可以随意定制,甚至超出模型应用的安全界限。
图2 Claude3越狱示例
而在越狱攻击场景下,虽然Claude成功拒绝了文本形式下的恶意请求,但当用户额外输入一张纯色无关图片时,模型按照用户要求输出了虚假新闻。这意味着多模态大模型相比大 语言模型 ,有着更多的风险挑战。
除了这两个例子以外,多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险,会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生,还是普遍存在?不同多模态大模型的可信性又有何区别,来源何处?
近日,来自清华、北航、上交和 瑞莱智慧 的研究人员联合撰写百页长文,发布名为MultiTrust的综合 基准 ,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。