输入“/”快速插入内容

非技术背景，一文读懂大模型（长文）

🔗 原文链接： https://www.woshipm.com/share/60992...

⏰ 发表时间：2024-08-15

作者：Ranger

本文旨在探讨大模型的工作原理、应用场景及其未来的发展趋势，以期为读者提供一个全面、客观的视角。我们将从大模型的整体架构、工作原理、以及市面上现有的 AI 产品等方面进行深入剖析，帮助大家更好地理解这项前沿技术。​

common.docs_name - LarkCCM_Docs_Menu_Image

一、写在前面

写这篇文章的初衷，源于近期涌起的唱衰 AI 大模型的风潮。不少人在对大模型的机制及当下的商业形态进行了初步了解后，便断言大模型是一场“骗局”，是资本操控的闹剧。同时，近来不管是投资领域还是各大厂，似乎都开始谨慎衡量做大模型这件事的投资回报率（ROI）。难道大模型当真不像去年众人所认定的那样，是一场所谓的“革命”吗？​

唱衰大模型的人，大多持有这样的观点：他们觉得大模型仅能实现像 chatbox、文生图、图生图、生视频、生音频之类的功能，难以找到可商用的场景，更别说其中部分功能还可能存在幻觉问题。同时，大模型的算力也是有成本的，而且价格不低。​

所以问题就出现了，即我们做出了一个个看似出色的 ai 产品，用户日活量或许也很高，但高日活带来的是高机器算力费用，而这笔费用又无法从活跃用户身上获取，所以这个商业模式就难以形成闭环了。​

所以这种理解倒不能说是错误的，但这是建立在两个前提之上的。​

第一，大模型确实后续也仅能用在聊天以及生成图片、文字、视频了；第二，算力的费用会持续居高不下。但在我看来，这两点都是不成立的。首先关于第二点的算力的问题，已经有许多解决方案了，不论是模型蒸馏，还是苹果的端云方案等等，我认为今年内算力成本问题将不再是难题。​

那么第一点，其实也是今日的重点。而要知晓一个新事物究竟能够带来什么样的改变，我认为首先是先需要明晰其运作原理究竟是怎样的。实际上，我也看过市面上很多有关大模型的科普文章，坦白讲，对于非技术人员而言，理解起来颇具难度。​

所以，我期望这篇文章能通过最为直白、最为简单的描述，帮助各位产品同学，理解何为大模型，大模型是如何运作的，大模型究竟带来了什么，以及我们究竟该去怎么看待这次大模型的浪潮。​

二、大模型的整体架构

首先为方便大家对大模型有一个整体的认知，我们先从大模型的整体架构着手，来看看大模型的组成是怎么样的。​

下面是我大致分的个层。从整体分层的角度来看，目前大模型整体架构可以分为以下几层：​

1. 基础层：为大模型提供硬件支撑，数据支持等

例如 A100、数据服务器等等。

2. 数据层

这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集​

3. 模型层：LLm 或多模态模型

LLm 这个大家应该都知道，large-language-model，也就是大语言模型，例如 GPT，一般使用 transformer 算法来实现。​

多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与 llm 不同，用的是图文或声音等多模态的数据集​

4. 平台层：模型与应用间的平台部分

比如大模型的评测体系，或者 langchain 平台等，提供模型与应用间的组成部分​

5. 表现层：也就是应用层，用户实际看到的地方

这个就很好理解了，就不用我多作解释了吧

三、理解模型如何运作

非技术背景，一文读懂大模型（长文）​

非技术背景，一文读懂大模型（长文）