输入“/”快速插入内容

非技术背景,一文读懂大模型(长文)

⏰ 发表时间:2024-08-15
作者:Ranger
本文旨在探讨大模型的工作原理、应用场景及其未来的发展趋势,以期为读者提供一个全面、客观的视角。我们将从大模型的整体架构、工作原理、以及市面上现有的 AI 产品等方面进行深入剖析,帮助大家更好地理解这项前沿技术。
一、写在前面
写这篇文章的初衷,源于近期涌起的唱衰 AI 大模型的风潮。不少人在对大模型的机制及当下的商业形态进行了初步了解后,便断言大模型是一场“骗局”,是资本操控的闹剧。同时,近来不管是投资领域还是各大厂,似乎都开始谨慎衡量做大模型这件事的投资回报率(ROI)。难道大模型当真不像去年众人所认定的那样,是一场所谓的“革命”吗?
唱衰大模型的人,大多持有这样的观点:他们觉得大模型仅能实现像 chatbox、文生图、图生图、生视频、生音频之类的功能,难以找到可商用的场景,更别说其中部分功能还可能存在幻觉问题。同时,大模型的算力也是有成本的,而且价格不低。
所以问题就出现了,即我们做出了一个个看似出色的 ai 产品,用户日活量或许也很高,但高日活带来的是高机器算力费用,而这笔费用又无法从活跃用户身上获取,所以这个商业模式就难以形成闭环了。
所以这种理解倒不能说是错误的,但这是建立在两个前提之上的。
第一,大模型确实后续也仅能用在聊天以及生成图片、文字、视频了;第二,算力的费用会持续居高不下。但在我看来,这两点都是不成立的。首先关于第二点的算力的问题,已经有许多解决方案了,不论是模型蒸馏,还是苹果的端云方案等等,我认为今年内算力成本问题将不再是难题。
那么第一点,其实也是今日的重点。而要知晓一个新事物究竟能够带来什么样的改变,我认为首先是先需要明晰其运作原理究竟是怎样的。实际上,我也看过市面上很多有关大模型的科普文章,坦白讲,对于非技术人员而言,理解起来颇具难度。
所以,我期望这篇文章能通过最为直白、最为简单的描述,帮助各位产品同学,理解何为大模型,大模型是如何运作的,大模型究竟带来了什么,以及我们究竟该去怎么看待这次大模型的浪潮。
二、大模型的整体架构
首先为方便大家对大模型有一个整体的认知,我们先从大模型的整体架构着手,来看看大模型的组成是怎么样的。
下面是我大致分的个层。从整体分层的角度来看,目前大模型整体架构可以分为以下几层:
1. 基础层:为大模型提供硬件支撑,数据支持等
例如 A100、数据服务器等等。
2. 数据层
这里的数据层指的不是用于基层模型训练的数据基集,而是企业根据自己的特性,维护的垂域数据。分为静态的知识库,和动态的三方数据集
3. 模型层:LLm 或多模态模型
LLm 这个大家应该都知道,large-language-model,也就是大语言模型,例如 GPT,一般使用 transformer 算法来实现。
多模态模型即市面上的文生图、图生图等的模型,训练所用的数据与 llm 不同,用的是图文或声音等多模态的数据集
4. 平台层:模型与应用间的平台部分
比如大模型的评测体系,或者 langchain 平台等,提供模型与应用间的组成部分
5. 表现层:也就是应用层,用户实际看到的地方
这个就很好理解了,就不用我多作解释了吧
三 、理解模型如何运作