质朴发言:期待地搓手手:多模态大模型的 GPT 时刻|Z 沙龙第 6 期

2024年4月9日修改
来源:质朴发言
发文时间:2024.02.01
编者按:2024 会是技术变革的关键一年,可以预见:Gemini 将揭开神秘面纱,卷到飞起的理解、生成模型又要迎来一轮爆发,在 B 端的落地场景也慢慢清晰。
还有许多我们不可预知,或者是非共识的,比如视频生成的技术路线是否收敛,比如数据问题中数据标注自动化及合成数据究竟效果如何。
在 2024 或不远的将来,或许人类会迎来多模态的 GPT 时刻,我们希望大模型能够真正理解世界,也希望其能给人类输出更多样化的内容,赋能教育、医疗、电商多个领域。
1 月 20 日,我们有幸和创新工场一起 Co-Host 了 Z 沙龙的第六期“多模态大模型技术的进展及应用”,也邀请到模型厂商多模态研究人员,AI 大厂科学家,投资人,创业者身份的多位“质朴同学”碰撞观点,贡献想法,并把想法留存,希望未来,我们的畅想变成现实,预言最终成真。
🏕️
目录 建议结合要点进行针对性阅读。👇
一、多模态模型算法:模型架构和数据困境
1、多模态模型的技术架构
2、多模态模型的数据问题
二、多模态模型的商业化落地
1、2B 还是 2C?国内还是出海?
2、多模态模型在不同市场的应用
三、未来,多模态的 GPT 时刻
#一、多模态模型算法:模型架构和数据困境
1、多模态模型的技术架构
技术分享
3D 模型、图像和视频可能会融合成一个统一的模态。举例来说,从一个截面观察杯子的移动,这可能是内容上的一个维度变化,从而形成一个空间维度的变化。
视频编辑本质上是连续多帧的编辑,而这种编辑过程与 3D 模型的空间变化相似,因此我们可以推测这三种模态的未来可能是融合的,既能够生成视频,也可以生成 3D。
编者按:
我们可以简单地理解:视频 = 二维图片 + 时间维度;3D = 二维图片 + 深度维度
在视频理解与生成以及三维模型生成这些领域,研究人员经常按照这个思路,将二维图像转换或提升到三维。
目前,3D 生成的主流两种技术路线是原生 3D 和 2D 升维,原生 3D 指的是使用 3D 数据集进行训练,从训练到推理都基于 3D 数据;
2D 升维指的是从二维图像出发,通过创建深度图、立体生成和未覆盖区域的重建等步骤,将二维图像转换为具有深度感的三维表现。
插播一条预告:质朴发言 Z 研究分支的下期主题正是 3D 模态模型。
3D 模型的一个重要特性是视角不变性,这意味着无论从哪个角度观察一个三维对象,其基本结构和特征都保持不变。
3D 模型具有的强大先验性,即从不同角度看到的状态之间存在因果关系和一致性,使得物体的变化一致,而不像是视频更像是一种概率的推测。
例如,一个图像上的大杯拿铁标签在视频中可能会随着物体的转动而消失,而在 3D 模型中,物体的形状是恒定的。
因此,你会发现如果我们的模型既支持 3D 生成,又支持视频生成,那么它就可以实现图文编辑以及具有强一致性的视频生成。
我们认为接下来,Open AI 会尝试把图片、视频、3D 变为一个自然空间。在这种情况下,我们不需要去区分当前的对象是哪种模态;
只需要训练一个模型就能实现文生 3D 或者文生视频,实际上 Google 的 VideoPoet 已经在这个方向上有很多尝试,但其分辨率还不够高。
编者按:我们对于 Google 的 VideoPoet 及相关生成模型进行的详细的分析,信息补全请戳👉一文纵览文生图/文生视频技术发展路径与应用场景|Z 研究第 1 期
附件不支持打印
飞书文档 - 图片