Sora 介绍及使用指北

2024年2月26日修改

近日，美国开放人工智能研究中心OpenAI发布首个视频生成模型“Sora”。该模型通过接收文本指令，即可生成60秒的短视频。而一年前，同样是这家研究中心发布的AI语言模型ChatGPT，让文本撰写和创作、检查代码程序等都变得易如反掌。

——央视新闻联播

一、公司与团队介绍

Sora是由OpenAI公司开发的人工智能视频生成模型，其背后的团队由一群年轻的研究人员组成，他们在人工智能领域有着深厚的专业知识和创新精神。

团队规模与成立时间：Sora团队的成立时间不到1年，核心成员包括12人，团队规模为15人左右。这个团队非常年轻，其中甚至包括了00后成员。

核心成员：

◦

Tim Brooks：DALL-E 3的作者之一，曾在谷歌和英伟达工作，专注于图片与视频生成的研究。

◦

William (Bill) Peebles：与谢赛宁合作发表了DiT（扩散Transformer）模型的论文，该模型被认为是Sora的技术基础之一。

◦

Aditya Ramesh：OpenAI的资深成员，主导了DALL-E系列的研究。

团队多样性：Sora团队中不仅有应届博士，还有来自不同背景的成员，包括艺术生和华人研究人员。例如，Li Jing是DALL-E 3的共同一作，拥有MIT物理学博士学位；Ricky Wang则在Meta工作后加入了OpenAI。

技术贡献：Sora团队在技术上的突破包括Spacetime Patch（时空Patch）技术和Diffusion Transformer（DiT）架构。这些技术使得Sora能够在保持原始分辨率的同时，生成高质量的视频内容。

团队动态：Sora团队正在持续扩张，OpenAI前总裁格雷格·布洛克曼（Greg Brockman）在社交媒体上转发了Sora团队的招聘广告，显示团队正在寻找有大型视频基础设施经验的人员。

团队文化：Sora团队的成员不仅在技术上有所建树，他们在艺术、音乐等领域也有涉猎，体现了团队的多元化和创新精神。

Sora 官方网址：https://openai.com/sora

Sora 论文网址：https://openai.com/research/video-generation-models-as-world-simulators

技术论文中文版（来自宝玉）：视频生成模型：构建虚拟世界的模拟器 [译]

Sora内测申请：Sora内测资格申请方法？（快去申请，不知道什么时候关闭！）

二、产品介绍

Sora是OpenAI推出的人工智能视频生成模型，它能够根据文本指令生成长达60秒的视频内容。

1. 文本到视频的生成能力

Sora的核心功能是将文本描述转化为视频，这意味着用户只需提供简短的文本提示，Sora就能生成与之相符的视频片段。这种能力不仅局限于简单的场景，Sora还能够处理复杂的场景，包括多个角色、特定类型的运动以及精确的主题和背景细节。它能够在一个生成的视频中创建多个镜头，并且能够准确保留角色和视觉风格，这在以往的视频生成模型中是难以实现的。

Sora 介绍及使用指北​

Sora 介绍及使用指北