输入“/”快速插入内容

嘉文:大模型应用层

💡
作者:Garman嘉文
Transformer决定边界
在CES 2024,李飞飞在争论LLM和AIGC名称不能混用,吴恩达觉得在公众传播没关系。李飞飞觉得难以接受,个人猜测是它模糊了大模型的本质。
在公众传播层面:
AIGC:指用Stable Diffusion或Midjourney生成图像内容,后来泛指用AI生成音乐、图像、视频等内容。
LLM:指NLP领域的大语言模型,如ChatGPT。
GenAI:生成式人工智能模型,国内官方政策文件使用这个词相对科学,涵盖了LLM和AIGC。
AGI:指通用人工智能,部分人觉得LLM具有AGI潜力,LeCun反对。
公众传播一般会混用上述名词,但底层是transformer结构。
(stable diffusion原采用LDM+UNet,后来改为DiT)
画板
而transformer底层是function loss损失函数
Transformer是一个大参数(千亿级别)的回归方程。
回归方程的Function loss拟合A to B mapping关系,实现数据集的压缩与还原。
Transformer是在一定prompt condition情况下,repeat曾经出现过的数据内容,实现“生成”能力。
大语言模型的智能体验在两个数据集压缩后,能解释两个数据集之间地带的“连续”能力。(Ilya)
所以大语言模型是一个perfect memory,repeat曾经出现的内容。它与Alpha Go差异:
Alpha Go是一个增强学习模型,学习结果会调整模型自身参数
Alpha Go有推理能力,但大语言模型这块很弱。
💡
Transformer决定LLM是一个生成式模型。
先看工具框架再算AI价值
投资者曾经认为在基座模型基础上有应用层机会和产品,行业人员反馈说Model as an application,模型本身就是应用。更严谨的说法是,生成式模型能解决一系列任务,而这些任务价值由生成场景(value)、生成效率(cost)构成。
AIGC场景
构建元素
应用
商业价值
工程门槛
代表作
视频制作
剧本、分镜、旁白、音乐、字幕
语音翻译、嘴部控制、表情控制
物体一致性
视频生成
虚拟人(Heygen)
⭐️⭐️⭐️⭐️⭐️
⭐️⭐️⭐⭐️️⭐️
SORA
图片设计
Lora
Prompt
Controlnet
Seed一致性控制
商品拍摄/海报设计
虚拟模特/服装设计
室内设计
个人写真
⭐️⭐️
⭐️⭐️
妙鸭相机
图文撰写
视频
图片
感想Prompt
位置、时间
抖音:视频+音乐+旁白+字幕
小红书:图片+攻略
公众号:图片+文章
会议总结:思维导图+数字/名称
⭐️⭐️
⭐️
NLP场景
输入
应用
商业价值
工程门槛
代表作
代码编程
前端:交互界面 prompt
后端:功能PRD
环境:自动配置+ReAct
Vscode + Copilot
Android studio + ?
HTML + ?
⭐️⭐️⭐️⭐️⭐️
⭐️⭐️⭐️⭐️
Devin
指令控制
Input
语音/按键/视觉唤醒
Tools
Function call 3rd API
CodeInterpreter
Sandbox+ReAct
室内场景:智能音箱
室外场景:XR 眼镜
车载场景:NOMI
⭐️⭐️
⭐️⭐️⭐️
One
Interpreter