输入“/”快速插入内容

【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)

2024年6月12日修改
大家好,我是Allen。世界是参差的,唯有持续学习能抵御未来的变数。
上篇文章观点:热爱与行动是通往 AGI 之路主要介绍了WaytoAGI和为什么要学习研究AI,解决了Why的问题。
这次想解决What和How的问题,当然我自己不是专业的,所以重点是推荐看了多篇教程后,对我个人有重大帮助的两个视频,我会附上视频链接,不想听我废话的可以直接看视频。本着一件事情如果你能讲给别人听才算彻底理解的原则,以下是我拆解的内容和个人注解。
研究AI,不是研究AI新闻,本文旨在帮助建立入门同学建立框架,需要深入了解的请关注原作者和原视频。
介绍:是由林粒粒呀 (女神)主讲,和某知识up主Genji一起制作的免费公益课。干货满满~新手友好~带你50分钟速通AI大模型原理。
介绍:某知识up主老石谈芯专访安克创新CEO阳萌的视频,一共两期,视频链接是第二期。两期内容都值得观看,访谈非常硬核,我也会做拆解,并思考与近期苹果发布会的关系。
一、视频一主要回答了什么是AI大模型,原理是什么
1、概念:生成式AI生成的内容,叫做AIGC
2、概念与关系:相关技术名词
1)AI——人工智能
2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。
3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。
4)无监督学习——学习的数据没有标签,算法自主发现规律。
经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。
5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。
6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。
神经网络可以用于监督学习、无监督学习、强化学习。
7)生成式AI——可以生成文本、图片、音频、视频等内容形式
8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;
对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;
3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。
这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。
GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。
LTSM(长短期记忆网络)是RNN的改良版本——但也没有解决传统RNN无法并行计算的问题。
这时Transformer踏着七彩祥云出现了,在处理每个词的时候,会注意输入序列里所有其他的词,
给予每个词不一样的注意力权重,从而捕获依赖关系和相关性。
Transformer有自注意力机制和位置编码(语言的顺序很重要)