如何写好多模态提示词?

2024年7月5日修改
多模态AI大爆发
2024 年是多模态大模型发展之年,继 OpenAI 发布 GPT-4o 以来,谷歌的 Gemini 系列同样有了比较大的更新,同时国内通义千问系列,智谱 AI 的 CogVLM,商汤的多模态模型等也纷纷发布。
另一方面,语音情感 AI 方面,除了国外的 Hume AI 之外,火爆的 ChatTTS,字节跳动出品的 Seed-TTS 等语音 AI 的效果目前也十分惊艳,令人真假难辨。同时,OpenAI 发布 Sora 吊足大家胃口之后,国内迅速跟进,开源社区推出 OpenSora,清华推出 Vidu,快手推出的 Kling 模型最近更是风靡一时,也是当前公众能体验到的最接近 Sora 级视频生成模型。
多模态 AI 的大爆发,如期而至,与之相伴的是相关的提示词、智能体等技术的进一步更新升级。
于此同时,继幻方 deepseek 系列模型发布之后,大模型的使用成本下降了一个数量级。国内大模型降价潮也由此掀开帷幕,字节跳动云雀、智谱 AI、阿里通义千问、百度文心一言等等大模型纷纷宣布降价,其中某些参数较小的模型甚至直接提供给开发者免费使用。OpenAI 也宣布 GPT-4o 这一最强的模型将逐步开放给用户免费使用。
大模型技术的进步和使用成本的迅速下降正在为 AI 的大众化普及扫清障碍!
本文整理了江树近期在第三届中国AIGC开发者大会和清华读书会上的演讲内容,与诸君共享。
多模态提示词
这是江树在第三届中国 AIGC 开发者大会上的分享内容,让各位朋友久等了,以下是 PPT 和发言。
我今天的分享内容聚焦在多模态提示词。主要的内容划分下面四个部分。先简单自我介绍一下,然后介绍一下相关概念。后面主要来讲我们现在的多模态应用,还有实践的一些探索,还有看到他的一些局限性,以及最后的话我们发现的一些提示词方法,以及我们的一些思考。
附件不支持打印

加载失败,