人工智能行业报告：从sora看多模态大模型发展 -金沙娱场城app

作者：报告派研读发布时间：2024-03-06

人工智能 sora

报告出品方：浙商证券

以下为报告原文节选

------

1 多模态ai综述

1.1 ai模型：必将从单模态走向多模态，实现复杂场景下的智能决策

1.2 2024年，有望出现多模态领域类chatgpt的爆款应用

1.3大模型行业规模持续增长，市场前景广阔

• 预计2028年全球大模型市场规模将超过1000亿美元。根据大模型之家、钛媒体数据，预计2023年全球大模型市场规模达到210亿美元，同比增长94.4%。预计到2028年全球大模型市场规模将达到1095亿美元，2022~2028年复合增长率约为47.12%，根据idc预测，全球生成式ai计算市场规模将从2022年的8.2亿美元增长至2026年的109.9亿美元，cagr约为91.34%。

• 预计至2028年我国大模型市场规模接近1200亿人民币。根据大模型之家、钛媒体数据，预计2023年中国大模型市场规模达到147亿人民币，同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币，2022~2028年复合增长率约为60.11%，市场规模快速成长。

• 多模态大模型带来ai全新应用场景，多模态内容市场规模有望快速成长。第一财经数据显示，预计至2025年，中国多模态内容市场规模将达到832.7亿美元，2018-2025年复合增长率达65.02%。多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。

1.4多模态ai以融合为核心，基于5大技术环节实现复杂问题解决

1.5openai 发布sora模型，将视觉数据转化为patch

• 过去的视频模型（循环网络、生成对抗网络、自回归transformer和扩散模型等）：只关注特定类型的视觉数据、较短或者固定尺寸的视频；

• sora：通用的视觉数据模型，能生成各种持续时间（甚至长达1分钟）、宽高比和分辨率的视频和图片。借鉴了llm的思想。

• 视频压缩网络（video compression network）：减少视觉数据维度。输入原始视频，输出一个在时间和空间上都压缩了的潜在空间。sora在这个压缩后的潜在空间中进行训练。（同时训练了一个解码器将生成的潜在表征转回原像素空间）• 潜空间patch（spacetime latent patches ）：类比transformer tokens，推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。

sora模型核心要点梳理

2 sora技术路线

2.1 sora模型底座：diffusion transformer

• sora是一个diffusion（扩散）模型：输入有噪声的patch，预测原来“干净”的patch。

• 同时，sora是diffusion transformer。transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今，视频领域同样表现优异。

• sora是一个diffusion（扩散）模型：输入有噪声的patch，预测原来“干净”的patch。

• 同时，sora是diffusion transformer。transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今，视频领域同样表现优异。

• sora模型 vs 基础模型：基于transformer的sora与基于u-net的基础模型相比，有提升了一个量级的视频时长（2秒到1分），更强的清晰度（4k到1080p），支持数字世界模拟，在一致性等方面均表现更优。

sora模型灵感：谷歌使用patchify技术压缩时空变量

• 2023年12月，斯坦福团队同谷歌合作，推出了用于生成逼真视频的扩散模型w.a.l.t。该方法成功地将 transformer 架构整合到了隐视频扩散模型中。

• 隐扩散模型（ldm）可在源自自动编码器的更低维隐空间中运行，从而降低计算需求。第一阶段，用一个自动编码器将视频和图像映射到一个统一的低维隐空间，可以在图像和视频数据集上联合训练单个生成模型，并显著降低生成高分辨率视频的计算成本。第二阶段，该团队设计了用于隐视频扩散模型的新 transformer 块，其由自注意力层构成，这些自注意力层在非重叠、窗口限制的空间和时空注意力之间交替。首先，使用局部窗口注意力能显著降低计算需求。其次，它有助于联合训练，其中空间层可以独立地处理图像和视频帧，而时空层则用于建模视频中的时间关系。

• patchify（图块化）。按照原始 vit 的设计，该团队对每个隐含帧分别进行图块化，做法是将其转换成一个不重叠图块的序列。窗口注意力。完全由全局自注意力模块组成的 transformer 模型的计算和内存成本很高，尤其是对于视频任务。为了效率以及联合处理图像和视频，该团队是以窗口方式计算自注意力，这基于两种类型的非重叠配置：空间（s）和时空（st），

• 该团队在文本 - 图像和文本 - 视频对上联合训练了 w.a.l.t 的文本到视频生成能力。他们使用了一个来自公共互联网和内部资源的数据集，其中包含约 970m 对文本 - 图像和约 89m 对文本 - 视频。

sora模型亮点一：直接在原始图片的大小上训练

• 过去：往往将视频或者图片压缩到固定大小（比如4秒钟、分辨率256*256）。

• sora：直接在原始素材规格上训练。

sora模型亮点二：为视频训练素材生成详细字幕

• 方法： re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型，然后用它为训练集中的视频生成文本说明。

• 技术来源：dall e3中已经使用过，使用gpt将简短prompt转化为详细说明，这些说明会被输入到视频模型中。

• 优点：增强文本理解能力，可以提高文本的保真度和视频的整体质量，使得sora能够生产准确遵循用户提升的高质量视频。

2.2 sora应用一：图片生成视频

• sora除了可以支持文字生成视频，还可以支持图片或视频作为输入，生成视频。

sora应用二&三：视频编辑、视频拼接

sora应用四：图片生成，更高像素

2.3 sora核心能力一&二：3d一致性&物体持久性

• 视频生成模型最大的挑战：长视频序列保持时间一致性。

• 源于规模效应，sora生成的人物和场景在三维空间的移动十分自然。

• 有效模拟短期和长期依赖关系：物体被遮挡或暂离画面，也可以准确表示它们。

• 长时间序列外观一致性：能够在单个视频中生成同一角色的多个场景，保持外观一致性。

sora核心能力三&四：世界交互&模拟数字世界

• 世界交互：模拟简单行为方式影响世界状态，如吃汉堡后留下咬痕。

• 模拟数字世界：如视频游戏。以“minecraft”为例，sora能控制玩家角色，以高度逼真方式模拟游戏世界变化。

2.4 sora模型的局限性

• 但是，sora还存在不少局限：

虽然能模拟一些基础物理互动，比如玻璃的碎裂，但还不够精确；

其他相互作用，比如吃食物，并不总是能产生物体状态的正确变化；

长视频中存在逻辑不连贯，或者物体会无缘无故出现的现象。

--- 报告摘录结束更多内容请阅读报告原文 ---

报告合集专题一览 x 由【报告派】定期整理更新

（特别说明：本文来源于公开资料，摘录内容仅供参考，不构成任何投资建议，如需使用请参阅报告原文。）

科技 / 电子 / 半导体 /

2024-03-05

2024-03-06

2023-06-14

2024-07-09

2023-08-17

2024-08-25

人工智能行业报告：从sora看多模态大模型发展 -金沙娱场城app

ai对话：类chatgpt产品体验

好用的ai绘画工具

火热的aigc产品

大公司发布的大模型产品都有哪些？

政府对aigc的扶持政策

aigc对就业的影响：我们会失业吗？

aigc对内容创作的影响

aigc对绘画设计领域的影响

aigc对各行各业的影响