输入“/”快速插入内容

概述

2024年5月8日修改

AIGC项目 —— NLP自然语言处理

技术背景

🎉

深度学习中有一个重要的分支是专门用来处理这样的数据的——循环神经网络。循环神经网络广泛应用在自然语言处理领域(NLP)，本文重点从古诗词自动生成的实例出发，一步一步带你从数据处理到模型搭建，再到训练出古诗词生成模型，最后实现从古诗词自动生成新春祝福诗词。​

原理讲解

1.
深度学习​

🎉

•
深度学习是一类机器学习方法，可实例化为深度学习器，所对应的设计、训练和使用方法集合称为深度学习。深度学习器由若干处理层组成，每层包含至少一个处理单元，每层输出为数据的一种表征，且表征层次随处理层次增加而提高。​

•
深度的定义是相对的。针对某具体场景和学习任务，若学习器的处理单元总数和层数分别为 M 和 N ，学习器所保留的信息量或任务性能超过任意层数小于 N 且单元总数为 M 的学习器，则该学习器为严格的或狭义的深度学习器，其对应的设计、训练和使用方法集合为严格的或狭义的深度学习。​

•
深度学习听起来高深，落地的应用却可以很浪漫。比如作诗、作曲、人脸美容美妆等都可以实现。下面我们以古诗词生成器为例，一步一步带你从数据处理到模型搭建，再到训练出古诗词生成模型。​

2.
LSTM 介绍​

🎉

像诗词文本这样的数据，文字的前后文存在关联性被称为序列化数据，即前一数据和后一个数据有顺序关系。深度学习中有一个重要的分支是专门用来处理这样的数据的——循环神经网络。循环神经网络广泛应用在自然语言处理领域( NLP )，今天我们带你介绍循环神经网络一个重要的改进算法模型 - LSTM。这里不对 LSTM 的原理进行深入，想要深入理解 LSTM 的可以戳这里​

数据处理

我们使用76748首古诗词作为数据集，数据集下载链接，原始的古诗词的存储形式如下：

common.docs_name - LarkCCM_Docs_Menu_Image

1.
我们可以看到原始的古诗词是文本符号的形式，无法直接进行机器学习，所以​
◦
第一步需要把文本信息转换为数据形式，这种转换方式就叫词嵌入(word embedding)，我们采用一种常用的词嵌套(word embedding)算法 - Word2vec 对古诗词进行编码。关于 Word2Vec 这里不详细讲解，有兴趣的可以参考​

概述​

概述