输入“/”快速插入内容

邬嘉文：大模型应用层

💡

作者：Garman邬嘉文

Transformer决定边界

在CES 2024，李飞飞在争论LLM和AIGC名称不能混用，吴恩达觉得在公众传播没关系。李飞飞觉得难以接受，个人猜测是它模糊了大模型的本质。​

在公众传播层面：

•
AIGC：指用Stable Diffusion或Midjourney生成图像内容，后来泛指用AI生成音乐、图像、视频等内容。​

•
LLM：指NLP领域的大语言模型，如ChatGPT。​

•
GenAI：生成式人工智能模型，国内官方政策文件使用这个词相对科学，涵盖了LLM和AIGC。​

•
AGI：指通用人工智能，部分人觉得LLM具有AGI潜力，LeCun反对。​

公众传播一般会混用上述名词，但底层是transformer结构。

（stable diffusion原采用LDM+UNet，后来改为DiT）

画板

而transformer底层是function loss损失函数

•
Transformer是一个大参数（千亿级别）的回归方程。​

•
回归方程的Function loss拟合A to B mapping关系，实现数据集的压缩与还原。​

•
Transformer是在一定prompt condition情况下，repeat曾经出现过的数据内容，实现“生成”能力。​

•
大语言模型的智能体验在两个数据集压缩后，能解释两个数据集之间地带的“连续”能力。（Ilya）​

所以大语言模型是一个perfect memory，repeat曾经出现的内容。它与Alpha Go差异：​

•
Alpha Go是一个增强学习模型，学习结果会调整模型自身参数​

•
Alpha Go有推理能力，但大语言模型这块很弱。​

💡

Transformer决定LLM是一个生成式模型。

先看工具框架再算AI价值

投资者曾经认为在基座模型基础上有应用层机会和产品，行业人员反馈说Model as an application，模型本身就是应用。更严谨的说法是，生成式模型能解决一系列任务，而这些任务价值由生成场景（value）、生成效率（cost）构成。​

AIGC场景	构建元素	应用	商业价值	工程门槛	代表作
视频制作	剧本、分镜、旁白、音乐、字幕语音翻译、嘴部控制、表情控制物体一致性	视频生成虚拟人（Heygen）	⭐️⭐️⭐️⭐️⭐️	⭐️⭐️⭐⭐️️⭐️	SORA
图片设计	Lora Prompt Controlnet Seed一致性控制	商品拍摄/海报设计虚拟模特/服装设计室内设计个人写真	⭐️⭐️	⭐️⭐️	妙鸭相机
图文撰写	视频图片感想Prompt 位置、时间	抖音：视频+音乐+旁白+字幕小红书：图片+攻略公众号：图片+文章会议总结：思维导图+数字/名称	⭐️⭐️	⭐️
NLP场景	输入	应用	商业价值	工程门槛	代表作
代码编程	前端：交互界面 prompt 后端：功能PRD 环境：自动配置+ReAct	Vscode + Copilot Android studio + ？ HTML + ？	⭐️⭐️⭐️⭐️⭐️	⭐️⭐️⭐️⭐️	Devin
指令控制	Input • 语音/按键/视觉唤醒 Tools • Function call 3rd API • CodeInterpreter • Sandbox+ReAct	室内场景：智能音箱室外场景：XR 眼镜车载场景：NOMI	⭐️⭐️	⭐️⭐️⭐️	One Interpreter

邬嘉文：大模型应用层​