浙大和阿里联合开源“AIR-Bench:基于生成理解的大型音频-语言模型评估”
浙大和阿里联合开源“AIR-Bench:基于生成理解的大型音频-语言模型评估”
4月1日修改
论文标题:【AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension】
作者单位:浙大、阿里巴巴
AIR-Bench(音频指令基准)是首个专为评估大型音频-语言模型(LALMs)设计的基准测试,旨在测试这些大模型理解多种音频信号(包括人类语音、自然声音和音乐)的能力,并能进一步以文本的形式与人类交互。
AIR-Bench 包含两个维度:基础基准和对话基准。基础基准由19个任务组成,包含约1.9万道单选题;对话基准则包含2000个开放式问答数据。
加载失败,