Sora 介绍及使用指北

2024年2月26日修改
近日,美国开放人工智能研究中心OpenAI发布首个视频生成模型“Sora”。该模型通过接收文本指令,即可生成60秒的短视频。而一年前,同样是这家研究中心发布的AI语言模型ChatGPT,让文本撰写和创作、检查代码程序等都变得易如反掌。
——央视新闻联播
一、公司与团队介绍
Sora是由OpenAI公司开发的人工智能视频生成模型,其背后的团队由一群年轻的研究人员组成,他们在人工智能领域有着深厚的专业知识和创新精神。
1.
团队规模与成立时间:Sora团队的成立时间不到1年,核心成员包括12人,团队规模为15人左右。这个团队非常年轻,其中甚至包括了00后成员。
2.
核心成员
Tim Brooks:DALL-E 3的作者之一,曾在谷歌和英伟达工作,专注于图片与视频生成的研究。
William (Bill) Peebles:与谢赛宁合作发表了DiT(扩散Transformer)模型的论文,该模型被认为是Sora的技术基础之一。
Aditya Ramesh:OpenAI的资深成员,主导了DALL-E系列的研究。
3.
团队多样性:Sora团队中不仅有应届博士,还有来自不同背景的成员,包括艺术生和华人研究人员。例如,Li Jing是DALL-E 3的共同一作,拥有MIT物理学博士学位;Ricky Wang则在Meta工作后加入了OpenAI。
4.
技术贡献:Sora团队在技术上的突破包括Spacetime Patch(时空Patch)技术和Diffusion Transformer(DiT)架构。这些技术使得Sora能够在保持原始分辨率的同时,生成高质量的视频内容。
5.
团队动态:Sora团队正在持续扩张,OpenAI前总裁格雷格·布洛克曼(Greg Brockman)在社交媒体上转发了Sora团队的招聘广告,显示团队正在寻找有大型视频基础设施经验的人员。
6.
团队文化:Sora团队的成员不仅在技术上有所建树,他们在艺术、音乐等领域也有涉猎,体现了团队的多元化和创新精神。
Sora 官方网址:https://openai.com/sora
技术论文中文版(来自宝玉)视频生成模型:构建虚拟世界的模拟器 [译]
二、产品介绍
Sora是OpenAI推出的人工智能视频生成模型,它能够根据文本指令生成长达60秒的视频内容。
1. 文本到视频的生成能力
Sora的核心功能是将文本描述转化为视频,这意味着用户只需提供简短的文本提示,Sora就能生成与之相符的视频片段。这种能力不仅局限于简单的场景,Sora还能够处理复杂的场景,包括多个角色、特定类型的运动以及精确的主题和背景细节。它能够在一个生成的视频中创建多个镜头,并且能够准确保留角色和视觉风格,这在以往的视频生成模型中是难以实现的。