输入“/”快速插入内容

task02 赛题分析与baseline详解

2024年6月17日创建

2013

3551

💡

教程写作者说：

通过简单的实验就能完成一个基础但完整的小说微调任务。

通过本次学习能快速体验一下整个微调的过程，感受微调的效果。​

你聪明的脑袋里肯定会留下很多疑问：为什么要这样？如何做的更好？很多知识我看不懂。​

没关系~大家先体验一下，后面我们慢慢告诉大家。

下节我们详细解读：🥷task03 LLm与微调入门！

赛题分析

赛题背景

💡

自ChatGPT发布以来，人工智能生成内容（AIGC）的创作能力在各个领域展现了惊人的潜力，特别是在文学创作方面。机器辅助写作不再是科幻小说中的设想，而是正在打破想象力的边界，为文字工作带来了全新的可能性。​

然而，AI写作的发展仍然处于初级阶段，面临诸多挑战。如何赋予AI更强大的语言理解能力、情感表达能力以及逻辑推理能力，使其创作出逻辑严密、有新意的内容，是当前开发者们研究的方向。​

在此背景下，优酷联合天池举办「酷文」小说创作大模型挑战赛，旨在激发开发者的兴趣，共同研究如何拓展模型创作能力，推动AIGC在文学创作中的应用。​

赛事任务

💡

单人成队或最多不超过3人组队参赛，基于给定梗概的文本创作任务，参赛者需在参考数据集的基础上，补充数据集，任选35b及以下的开源模型进行训练，完成800字左右的文本创作任务。​

赛题数据集

•

参考数据集：参考数据集.json.zip，格式大致如下：

为了便于阅读，有换行处理，需要注意：

1.
官方给出的参考数据集遵循 JSON Lines 格式​

2.
官方一本小说的数据都在一行内​

代码块

{​
    "name": "三国演义",​
    "len": 593514,​
    "dir": "./douban_yamaxun//D-三国演义-10.json",​
    "text": ...​
}​
{​
    "name": "水浒传",​
    "len": 852570,​
    "dir": "./douban_yamaxun//D-水浒传-10.json",​
    "text": ...​
}​

我们需要关注的字段解释如下：

◦
name：小说名​

◦
len：小说字符数​

◦
text：小说内容​

•
提交格式：官方指定的提交格式与其给出的test.json文件相同​
test.json
39%
61%

task02 赛题分析与baseline详解​

task02 赛题分析与baseline详解