输入“/”快速插入内容

多模态基础(一):了解多模态

2024年8月19日修改
2038
2280
【导读】本文将介绍什么是多模态?都有哪些多模态?多模态模型能做哪些任务?
长期以来,机器学习模型通常专注于单一数据模态,如文本、图像或音频。然而,人类的自然智能并不局限于单一模式,我们能够同时处理多种模态信息,例如阅读、交谈、观看、听音乐或警觉于危险声音。因此,处理多模态数据对人工智能在现实世界中的应用至关重要。
OpenAI 在其 GPT-4V 技术报告中指出,纳入图像等其它模态到大型语言模型(LLMs)是 AI 研究的关键前沿。这种整合形成了多模态大模型(MLLMs)。并非所有多模态系统都是 MLLM,例如 Midjourney、Stable Diffusion 和 Dall-E 等文本到图像模型虽然也是多模态的,但没有语言模型组件。多模态系统可以包含以下几种形式:
1.
输入和输出是不同的模式(如文本到图像、图像到文本)。
2.
输入是多模态的(如能同时处理文本和图像的系统)。
3.
输出是多模态的(如能生成文本和图像的系统)。
一、为什么需要多模态?
如果没有多模态,许多用例都是不可能的,尤其是那些处理混合数据模态的行业,例如医疗保健、机器人、电子商务、零售、游戏等。
多模式生物医学 AI
不仅如此,合并来自其他模式的数据可以帮助提高模型性能。可以从文本和图像中学习的模型不应该比只能从文本或图像中学习的模型表现得更好吗?
多模式系统可以提供更灵活的界面,允许您以目前最适合您的方式与其进行交互。想象一下,您可以通过打字、说话或只是将相机对准某物来提出问题。
我特别兴奋的一个用例是,多模态还可以让视障人士浏览互联网并导航现实世界。
GPT-4V 的一些很酷的多模态用例
二、有哪些数据模态?
不同的数据模式是文本、图像、音频、表格数据等。一种数据模式可以用另一种数据模式来表示或近似。例如:
音频可以表示为图像(梅尔频谱图)。