2023-05-11AI大模型需要什么样的数据

2023年9月4日修改
AI 大模型需要什么样的数据集
数据将是未来 AI 大模型竞争的关键要素
人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更 高质量、更丰富的训练数据集:与 GPT-2 相比,GPT-3 对模型架构只进行了微小的修改, 但花费精力收集更大的高质量数据集进行训练。ChatGPT 与 GPT-3 的模型架构类似,并使 用 RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。
附件不支持打印

加载失败,

基于此,人工智能领域的权威学者吴承恩发起了“以数据为中心的 AI”运动,即在模型相 对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质 量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监 测和维护数据等。因此,我们认为未来数据成本在大模型开发中的成本占比或将提升,主 要包括数据采集,清洗,标注等成本。