谷歌Gemini多模态提示词培训课——Part1
分享
输入“/”快速插入内容
谷歌Gemini多模态提示词培训课——Part1
2024年8月30日修改
本系列课程是Deeplearning联合谷歌Gemini团队开发的免费在线课程,课程中使用了Gemini模型作为教学模型,教授大家如何使用多模态提示词与模型交互。由于课程内容中有很多在国内无法应用的部分,在其之中也缺乏了某些概念。有鉴于此,我截取了部分教程内容,并适当混合了一些入门概念。将其进行重新整理和刊发,以增强其普世价值。(如有需要,请访问
原版在线课程
)
在这个系列中你可以学到:
1.
了解什么是多模态大模型
2.
了解Gemini系列模型
3.
使用 Gemini API 进行多模态提示词最佳实践(其提示词理念也同样也适用于完整AI产品的交互,0代码读者不必过多担心)
一、什么是多模态大模型(MLLM)
多模态大模型(MLLM)是一种在统一的框架下,集成了多种不同类型数据处理能力的深度学习模型,这些数据可以包括文本、图像、音频和视频等,通过整合这些多样化的数据,MLLM 能够更全面地理解和解释现实世界中的复杂信息。
这种多元化的数据处理能力使得 MLLM 在面对复杂任务时表现出更高的准确性和鲁棒性。通过综合分析不同类型的信息,这些模型能够得出更加全面和准确的结论,从而在各种应用场景中发挥重要作用。
下方是一个典型 MLLM 架构的示意图。它包括一个编码器、一个连接器和一个 LLM。可以选择性地在 LLM 上附加一个生成器,以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使 LLM 能更好地理解。连接器大致可分为三类:基于投影的、基于查询的和基于融合的连接器。前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,而最后一种类型则在 LLM 内部实现特征级融合。
注:词元=Token
二、 为什么要学习多模态大模型
多模态技术可以从图像中提取文本,使从表情包或文档扫描中提取文本成为可能。它还能理解图像或视频中发生的事情,识别物体、场景,甚至情绪。