输入“/”快速插入内容

2. 【多模态赛道】案例

2024年5月8日创建
2725
3242
4
0
💡
本案例贡献者
飞书用户2615
说:欢迎大家点赞和评论,以及在学习群里多多互动呀~
明确主题
什么是多模态应用 ?
🏕️
在大模型应用开发中,多模态应用指的是能够整合和处理多种不同类型数据(如文本、图像、声音和视频)的应用程序。这些应用程序利用多模态模型的能力,通过结合来自不同感官的信息,提供更丰富、更准确的用户体验和功能。
多模态应用的例子包括:
1. 智能助手:能够理解用户的语音指令,同时分析图像和视频数据,以执行复杂的任务,如家庭自动化控制或个人助理功能。
2. 医疗诊断工具:分析医疗影像、电子病历和实验室报告,以辅助诊断和治疗方案。
3. 内容创作工具:允许用户通过语音、文本和图像输入来生成文章、报告或演示文稿。
结合结合本赛道,我们希望以《十万个为什么》的知识为核心构建一个多模态应用——《十万个奇趣绘》。
如何构建以《十万个为什么》的知识为核心?
📌
我们可以提取十万个为什么的所谓 问-答 对,然后使用向量项目将其转化为模型的知识库。在用户使用应用的时候,我们基于用户的问题去知识库中寻找较为相近的答案,再将答案包装给大模型进行回答。这种基于大模型的应用思路也称为RAG
要完成一个 RAG 应用,我们需要明确数据格式,比如此次比赛是基于《十万个为什么》文本数据,并且其中还有图片,我们如何处理这些图片就是要面临的技术挑战之一,如何对文本数据筛选也是我们要考虑的一点。
具体如何构建RAG应用,可以参考【RAG赛道】赛事案例
项目背景
确认好多模态应用主题以后,我们就可以围绕主题构思项目的背景。通过构建项目背景进一步的构思细化项目目的、应用场景、受众群体、技术难点等问题。
🌰
项目背景:十万个奇趣绘
十万个奇趣绘是一个以《十万个为什么》知识为核心的多模态应用,旨在为孩子们提供一个富有教育性趣味性互动性的学习平台。通过回答小朋友的各种问题,生成绘本图片和对应生成语音解读,智慧成长乐园能够激发孩子们的好奇心,培养他们的观察能力、思考能力和表达能力。
项目愿景:
我们希望应用能激发小朋友的学习欲望、发挥小朋友的奇思妙想。同时,我们希望这个应用能替代其他“电子鸦片”式的娱乐APP,让像朋友在娱乐中得到学习。
所以我们的愿景是:
1.
促进全面发展:以《十万个为什么》元领域的知识为基础,我们希望帮助孩子们在探索中拓宽视野,促进他们的全面发展。
2.
培养主动学习:借助智能问答系统,我们鼓励孩子们主动提问和思考,从而培养他们的自主学习能力和解决问题的能力。
3.
提供沉浸式体验:通过生成生动有趣的绘本图片,我们为孩子们提供视觉上的享受,让他们在愉悦的氛围中吸收知识。
4.
强化语言技能:语音解读功能不仅帮助孩子们更好地理解和记忆知识,同时也锻炼了他们的听力和口语表达能力。
5.
创造互动乐趣:我们希望孩子们在与“智慧成长乐园”互动的过程中,感受到学习的乐趣,从而培养他们对知识的热爱和持续学习的动力。
应用场景:
基于上述愿景,我们提出应用的三个基础功能
1.
智能问答:围绕《十万个为什么》的知识为核心,回答用户的问题
2.
语音解读:基于答案实现语音播放,协助用户对答案的阅读理解
3.
绘本生成:基于答案制作绘本或漫画,辅助用户对“问题-答案”的深入记忆
项目挑战:
1.
如何围绕《十万个为什么》构建应用知识库,辅助模型精准回答问题?
2.
如何将应用答案生成语音播报数据?
3.
如何将应用答案转化为生动有趣的绘本漫画?
上述应用只是针对多模态应用的基础构思。我们希望以此案例作为“砖”,协助广大开发者打开思维创造出更具有创新性实用性的应用,最终达到抛砖引玉的效果。这里再次提一下比赛的评分标准:
1.
创新性—— 考察需求洞察、产品定义能力(30%)
2.
实用性与可行性—— 考察对于产品落地的可行性思考(30%)
3.
技术实践——对文心大模型能力运用及技术思路&难度(40%)
产品说明
产品说明主要作用是为了让用户更快的了解到产品需求、功能、技术特点等。所以我们可以详细讲一下是针对哪些用户群体,对这些用户群体有何帮助;产品所遇到困难以及如何解决的,用到了哪些技术,以及产品的功能有哪些,特点在哪里;最后对产品进行总结,一定要总结最关键最具有创新点的内容。
🚅
产品名称: 十万个奇趣绘 (Curiosity Canvas)
产品简介:
《十万个奇趣绘》是一款多模态教育应用,以《十万个为什么》的知识为基础,为孩子们提供了一个富有趣味性和互动性的学习平台。应用通过智能问答系统,精准理解孩子的问题,并从知识库中找到最合适的答案,引导孩子们主动思考和探索。同时,应用根据答案生成相应的漫画绘图和音频解读,以视觉和听觉的双重体验,帮助孩子们更好地理解和记忆知识。通过《十万个奇趣绘》,我们希望激发孩子们的好奇心,培养他们的观察能力、思考能力和表达能力,为他们的成长提供丰富的知识滋养。
需求洞察: