2. 【多模态赛道】案例
2. 【多模态赛道】案例
2024年5月8日创建
3060
3585
4
0
明确主题
什么是多模态应用 ?
🏕️
在大模型应用开发中,多模态应用指的是能够整合和处理多种不同类型数据(如文本、图像、声音和视频)的应用程序。这些应用程序利用多模态模型的能力,通过结合来自不同感官的信息,提供更丰富、更准确的用户体验和功能。
多模态应用的例子包括:
1. 智能助手:能够理解用户的语音指令,同时分析图像和视频数据,以执行复杂的任务,如家庭自动化控制或个人助理功能。
2. 医疗诊断工具:分析医疗影像、电子病历和实验室报告,以辅助诊断和治疗方案。
3. 内容创作工具:允许用户通过语音、文本和图像输入来生成文章、报告或演示文稿。
结合结合本赛道,我们希望以《十万个为什么》的知识为核心构建一个多模态应用——《十万个奇趣绘》。
如何构建以《十万个为什么》的知识为核心?
📌
我们可以提取十万个为什么的所谓 问-答 对,然后使用向量项目将其转化为模型的知识库。在用户使用应用的时候,我们基于用户的问题去知识库中寻找较为相近的答案,再将答案包装给大模型进行回答。这种基于大模型的应用思路也称为RAG。
要完成一个 RAG 应用,我们需要明确数据格式,比如此次比赛是基于《十万个为什么》文本数据,并且其中还有图片,我们如何处理这些图片就是要面临的技术挑战之一,如何对文本数据筛选也是我们要考虑的一点。
项目背景
确认好多模态应用主题以后,我们就可以围绕主题构思项目的背景。通过构建项目背景进一步的构思细化项目目的、应用场景、受众群体、技术难点等问题。
🌰
项目背景:十万个奇趣绘
十万个奇趣绘是一个以《十万个为什么》知识为核心的多模态应用,旨在为孩子们提供一个富有教育性、趣味性和互动性的学习平台。通过回答小朋友的各种问题,生成绘本图片和对应生成语音解读,智慧成长乐园能够激发孩子们的好奇心,培养他们的观察能力、思考能力和表达能力。
项目愿景:
我们希望应用能激发小朋友的学习欲望、发挥小朋友的奇思妙想。同时,我们希望这个应用能替代其他“电子鸦片”式的娱乐APP,让像朋友在娱乐中得到学习。