写在前面：猫世界-个人博客-GPT4订阅保姆级教程

1.Sora是什么

Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器” ），于2024年2月15日（美国当地时间）正式对外发布。

Sora这一名称源于日文“空”（そら sora），即天空之意，以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。 [50-51] [56]

Sora可以根据用户的文本提示创建最长60秒的逼真视频，该模型了解这些物体在物理世界中的存在方式，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。继承了[DALL-E 3](https://baike.baidu.com/item/DALL-E 3/63555928?fromModule=lemma_inlink)的画质和遵循指令能力，能理解用户在提示中提出的要求。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能，其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步，也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

——百度百科

简单的说，Sora是OpenAI旗下新开发的一款根据用户提示词创建最长60秒高清视频的AI工具

2.Sora功能

生成视频

静态图生成视频

Sora还具备根据静态图像生成视频的能力，能够让图像内容动起来，并关注细节部分，使得生成的视频更加生动逼真，这一功能在动画制作、广告设计等领域具有应用前景。

视频扩展与缺失帧填充

Sora能够获取现有视频并对其进行扩展或填充缺失的帧，这一功能在视频编辑、电影特效等领域具有应用前景，可以帮助用户快速完成视频内容的补充和完善。

连接视频

可以使用Sora连接两个输入视频，在具有完全不同主题和场景组成的视频之间实现无缝过渡。

其他能力

能力	描述
图像生成	Sora可以生成各种尺寸的图像，分辨率最高达2048×2048 。
3D一致	Sora可以生成动态运动的视频，随着相机的移动和旋转，人和场景元素在三维空间中一致移动。
远距离连贯性物体持久性	Sora通常能够有效地对短期和长期依赖关系进行建模，包括人、动物和物体的持久化，即使它们被遮挡或离开框架。同时，它还能在单个样本中生成同一角色的多个镜头，以保持其在整个视频中的外观。
互动性	Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触，并随着时间的推移而持续，或者一个男人可以吃汉堡并留下咬痕。
模拟数字世界	Sora可以模拟人工过程，例如电子游戏，并能够通过基本策略控制玩家，同时高保真地渲染世界及其动态。
多机位	Sora可以生成多机位、多角度的视频。

3.Sora如何使用

目前并没有提及任何允许普通用户绕过公测流程的内部途径。目前也只有OpenAI定向为极少数的艺术家开放了Sora的使用权限。

但是OpenAI CEO Sam Altman也表示，可以成为OpenAI的红队测试人员。

红队测试人员:

由于必须经过充分安全测试后，Sora才有可能大面积开放,因此Sora需要招聘部分网络安全人员测试Sora系统是否含有安全漏洞或者是安全风险。

官方申请链接：OpenAI Red Teaming Network

但是可以先使用GTP Plus（GPT4)生成一系列图片，来替代您所需视频

点击 GPT Plus订阅保姆级教程查看最快最简单注册攻略！

4.Sora技术特点

多帧预测生成

Sora是一种扩散模型，具备从噪声中生成完整视频的能力，它生成的视频一开始看起来像静态噪音，通过多个步骤逐渐去除噪声后，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面主体在暂时离开视野时仍保持一致。

特殊架构

Sora采用与GPT模型相似的Transformer架构，OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构，提升了原来Diffusion模型在深度和宽度上的可扩展性，为视频模型增加输出时长奠定基础。Transformer架构能够处理长序列数据，并通过自注意力机制捕捉数据中的依赖关系，从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题，扩散模型采用更可扩展的状态空间模型（SSM）主干替代了传统的注意力机制，从而减少了算力需求，并能够生成高分辨率图像。

5.Sora缺陷

因果关系

难以准确模拟复杂场景的物理原理，无法理解因果关系，混淆提示的空间细节，难以精确描述随着时间推移发生的事件

官方回复

OpenAI表示，Sora存在不成熟之处，可能难以理解因果关系，多位人工智能领域人士表示，该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题，但无法根治。想要真正突破最底层逻辑上的问题，因果关系是一条必经之路

6.结束

Sora大模型暂时不对普通人开放，如果制作视频需要素材或者其他需求，可使用GTP Plus（GPT4)生成一系列图片