task02 赛题分析与baseline详解

2024年6月17日创建
1932
3466
5
0
💡
教程写作者说:
通过简单的实验就能完成一个基础但完整的小说微调任务。
通过本次学习能快速体验一下整个微调的过程,感受微调的效果。
你聪明的脑袋里肯定会留下很多疑问:为什么要这样?如何做的更好?很多知识我看不懂。
没关系~大家先体验一下,后面我们慢慢告诉大家。
下节我们详细解读:task03 LLm与微调入门
1.
赛题分析
赛题背景
💡
自ChatGPT发布以来,人工智能生成内容(AIGC)的创作能力在各个领域展现了惊人的潜力,特别是在文学创作方面。机器辅助写作不再是科幻小说中的设想,而是正在打破想象力的边界,为文字工作带来了全新的可能性。
然而,AI写作的发展仍然处于初级阶段,面临诸多挑战。如何赋予AI更强大的语言理解能力、情感表达能力以及逻辑推理能力,使其创作出逻辑严密、有新意的内容,是当前开发者们研究的方向。
在此背景下,优酷联合天池举办「酷文」小说创作大模型挑战赛,旨在激发开发者的兴趣,共同研究如何拓展模型创作能力,推动AIGC在文学创作中的应用。
赛事任务
💡
单人成队或最多不超过3人组队参赛,基于给定梗概的文本创作任务,参赛者需在参考数据集的基础上,补充数据集,任选35b以下开源模型进行训练,完成800字左右的文本创作任务
赛题数据集
参考数据集参考数据集.json.zip,格式大致如下:
为了便于阅读,有换行处理,需要注意:
1.
官方给出的参考数据集遵循 JSON Lines 格式
2.
官方一本小说的数据都在一行内