输入“/”快速插入内容

谷歌Gemini多模态提示词培训课——Part2

2024年11月4日修改
本文讨论了谷歌Gemini多模态提示词培训课Part2的内容,介绍了模型参数知识、对比例子、多模态提示原则及注意事项,并通过图片交互实践展示了Gemini模型在不同场景下的应用。关键要点包括:
1.
模型参数知识:Top-K从所有选项中挑选得分最高的前K个选项;Top-P通过设置概率阈值控制模型创造性和随机性;Temperature参数调整模型输出的“创造性”程度。Gemini 1.0 pro版本中,温度默认值0.4(0到1间调整),Top-K默认值None(1到40间设置),Top-P默认值1(0到1间调整)。
2.
对比例子:展示不同参数设置下模型输出的差异,如温度和Top-K设置不同极端值时,输出分别偏向严谨、活跃,加入Top-P参数可平衡创造性和详细程度,还介绍了控制输出长度和内容的参数。
3.
多模态提示原则:基础原则强调提示词是经验科学。设计策略包括清晰明确的指令、角色扮演、结构化提示、注意提示词注意力,合理运用这些策略可更好引导模型。
4.
图片交互实践:通过处理日常事务、作为推荐系统、处理财务报销三个示例,展示Gemini模型在不同场景下结合视觉和文本信息解决实际问题的能力,如跨模态推理、视觉分析和风格匹配、处理多模态多层面任务等。
本系列课程是Deeplearning联合谷歌Gemini团队开发的免费在线课程,课程中使用了Gemini模型作为教学模型,教授大家如何使用多模态提示词与模型交互。由于课程内容中有很多在国内无法应用的部分,在其之中也缺乏了某些概念。有鉴于此,我截取了部分教程内容,并适当混合了一些入门概念。将其进行重新整理和刊发,以增强其普世价值。(如有需要,请访问原版在线课程
在本节课程中你可以学到:
1.
了解什么多模态大模型的参数概念
2.
通过对比例子了解每个参数如何影响模型生成
3.
学习多模态提示编写原则
4.
通过实践,使用Gemini模型辅助日常办公
💡
扩展阅读:Gemini API快速入门
一、认识模型参数
接下来,我要教大家关于参数的知识,以及如何使用这些参数来影响 Gemini 模型的输出。在你们尝试不同的模型参数之前,我想快速概述一下它们,以确保每个人都在同一起点上,并掌握这些方法。
让我们从一个有趣的比喻开始:模型的输出就像一家特别的餐厅的菜单。这不是普通的菜单,而是一个包罗万象的巨型菜单,上方图形中的每个小方格代表一道菜(一个词)。然而,面对如此庞大的选择,我们通常不希望看到所有可能的选项。相反,我们可能只想关注那些最有可能让人眼前一亮的前 5 个或前 10 个选项。
1.1 Top K
基于这个比喻,现在让我来解释一下 Top-K 是如何帮助我们的。Top-K 的工作方式其实很有趣。在我们的餐厅比喻中,它就是在帮我们从所有的菜品中挑选最适合我们的菜。它不会让我们看遍所有的选项,而是只为我们呈现最有可能符合我们需求的前几个选择。
具体来说,它是这样工作的:
1.
首先,我们给每个选项(在我们的比喻中是每道菜)分配一个分数。这个分数基于它的概率或 "受欢迎程度"。就像餐厅里的每道菜都有自己的受欢迎程度一样,语言模型中的每个词也有被选中的可能性。
2.
接下来,算法会根据这些分数进行选择。它会从得分最高的选项开始,逐个挑选,直到达到我们预设的数量。例如,如果我们想要看到前五个最佳选项,我们就将参数 K 设置为 5。这就像是从菜单中挑选出最受欢迎的五道菜。
3.
最终,我们得到了一个包含前 K 个最佳选项的精简列表。
通过使用 Top-K,我们可以更有效地控制模型的输出,这个过程大大提高了效率,让我们能够快速聚焦于最相关或最有价值的选项,而不是被海量的可能性所淹没。
1.2 Top P