非技术背景,一文读懂大模型(长文)

⏰ 发表时间:2024-08-15
作者:Ranger
本文旨在探讨大模型的工作原理、应用场景及其未来的发展趋势,以期为读者提供一个全面、客观的视角。我们将从大模型的整体架构、工作原理、以及市面上现有的 AI 产品等方面进行深入剖析,帮助大家更好地理解这项前沿技术。
附件不支持打印
飞书文档 - 图片
一、写在前面
写这篇文章的初衷,源于近期涌起的唱衰 AI 大模型的风潮。不少人在对大模型的机制及当下的商业形态进行了初步了解后,便断言大模型是一场“骗局”,是资本操控的闹剧。同时,近来不管是投资领域还是各大厂,似乎都开始谨慎衡量做大模型这件事的投资回报率(ROI)。难道大模型当真不像去年众人所认定的那样,是一场所谓的“革命”吗?
唱衰大模型的人,大多持有这样的观点:他们觉得大模型仅能实现像 chatbox、文生图、图生图、生视频、生音频之类的功能,难以找到可商用的场景,更别说其中部分功能还可能存在幻觉问题。同时,大模型的算力也是有成本的,而且价格不低。
所以问题就出现了,即我们做出了一个个看似出色的 ai 产品,用户日活量或许也很高,但高日活带来的是高机器算力费用,而这笔费用又无法从活跃用户身上获取,所以这个商业模式就难以形成闭环了。
所以这种理解倒不能说是错误的,但这是建立在两个前提之上的。
第一,大模型确实后续也仅能用在聊天以及生成图片、文字、视频了;第二,算力的费用会持续居高不下。但在我看来,这两点都是不成立的。首先关于第二点的算力的问题,已经有许多解决方案了,不论是模型蒸馏,还是苹果的端云方案等等,我认为今年内算力成本问题将不再是难题。
那么第一点,其实也是今日的重点。而要知晓一个新事物究竟能够带来什么样的改变,我认为首先是先需要明晰其运作原理究竟是怎样的。实际上,我也看过市面上很多有关大模型的科普文章,坦白讲,对于非技术人员而言,理解起来颇具难度。
所以,我期望这篇文章能通过最为直白、最为简单的描述,帮助各位产品同学,理解何为大模型,大模型是如何运作的,大模型究竟带来了什么,以及我们究竟该去怎么看待这次大模型的浪潮。