输入“/”快速插入内容

概述

2024年5月8日修改
AIGC项目 —— NLP自然语言处理
技术背景
🎉
深度学习中有一个重要的分支是专门用来处理这样的数据的——循环神经网络。循环神经网络广泛应用在自然语言处理领域(NLP),本文重点从古诗词自动生成的实例出发,一步一步带你从数据处理到模型搭建,再到训练出古诗词生成模型,最后实现从古诗词自动生成新春祝福诗词。
原理讲解
1.
深度学习
🎉
深度学习是一类机器学习方法,可实例化为深度学习器,所对应的设计、训练和使用方法集合称为深度学习。深度学习器由若干处理层组成,每层包含至少一个处理单元,每层输出为数据的一种表征,且表征层次随处理层次增加而提高。
深度的定义是相对的。针对某具体场景和学习任务,若学习器的处理单元总数层数分别为 M N ,学习器所保留的信息量或任务性能超过任意层数小于 N 且单元总数为 M 的学习器,则该学习器为严格的或狭义的深度学习器,其对应的设计、训练和使用方法集合为严格的或狭义的深度学习。
深度学习听起来高深,落地的应用却可以很浪漫。比如作诗作曲人脸美容美妆等都可以实现。下面我们以古诗词生成器为例,一步一步带你从数据处理到模型搭建,再到训练出古诗词生成模型
2.
LSTM 介绍
🎉
像诗词文本这样的数据,文字的前后文存在关联性被称为序列化数据,即前一数据和后一个数据有顺序关系。深度学习中有一个重要的分支是专门用来处理这样的数据的——循环神经网络。循环神经网络广泛应用在自然语言处理领域( NLP ),今天我们带你介绍循环神经网络一个重要的改进算法模型 - LSTM。这里不对 LSTM 的原理进行深入,想要深入理解 LSTM 的可以戳这里
数据处理
我们使用76748首古诗词作为数据集数据集下载链接,原始的古诗词的存储形式如下:
1.
我们可以看到原始的古诗词是文本符号的形式无法直接进行机器学习,所以
第一步需要把文本信息转换为数据形式,这种转换方式就叫词嵌入(word embedding),我们采用一种常用的词嵌套(word embedding)算法 - Word2vec 对古诗词进行编码。关于 Word2Vec 这里不详细讲解,有兴趣的可以参考