当前位置:金沙娱场城app-老版金沙app下载客户手机端|资讯|人工智能|sora

人工智能行业报告:从sora看多模态大模型发展 -金沙娱场城app

作者:报告派研读发布时间:2024-03-06

原标题:人工智能行业报告:从sora看多模态大模型发展

报告出品方:浙商证券

以下为报告原文节选

------

1 多模态ai综述

1.1 ai模型:必将从单模态走向多模态,实现复杂场景下的智能决策

1.2 2024年,有望出现多模态领域类chatgpt的爆款应用

1.3大模型行业规模持续增长,市场前景广阔

• 预计2028年全球大模型市场规模将超过1000亿美元。根据大模型之家、钛媒体数据,预计2023年全球大模型市场规模达到210亿美元,同比增长94.4%。预计到2028年全球大模型市场规模将达到1095亿美元,2022~2028年复合增长率约为47.12%,根据idc预测,全球生成式ai计算市场规模将从2022年的8.2亿美元增长至2026年的109.9亿美元,cagr约为91.34%。

• 预计至2028年我国大模型市场规模接近1200亿人民币。根据大模型之家、钛媒体数据,预计2023年中国大模型市场规模达到147亿人民币,同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币,2022~2028年复合增长率约为60.11%,市场规模快速成长。

• 多模态大模型带来ai全新应用场景,多模态内容市场规模有望快速成长。第一财经数据显示,预计至2025年,中国多模态内容市场规模将达到832.7亿美元,2018-2025年复合增长率达65.02%。多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。

1.4多模态ai以融合为核心,基于5大技术环节实现复杂问题解决

1.5openai 发布sora模型,将视觉数据转化为patch

• 过去的视频模型(循环网络、生成对抗网络、自回归transformer和扩散模型等):只关注特定类型的视觉数据、较短或者固定尺寸的视频;

• sora:通用的视觉数据模型,能生成各种持续时间(甚至长达1分钟)、宽高比和分辨率的视频和图片。借鉴了llm的思想。

• 视频压缩网络(video compression network):减少视觉数据维度。输入原始视频,输出一个在时间和空间上都压缩了的潜在空间。sora在这个压缩后的潜在空间中进行训练。(同时训练了一个解码器将生成的潜在表征转回原像素空间)• 潜空间patch(spacetime latent patches ):类比transformer tokens,推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。

sora模型核心要点梳理

2 sora技术路线

2.1 sora模型底座:diffusion transformer

• sora是一个diffusion(扩散)模型:输入有噪声的patch,预测原来“干净”的patch。

• 同时,sora是diffusion transformer。transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今,视频领域同样表现优异。

• sora是一个diffusion(扩散)模型:输入有噪声的patch,预测原来“干净”的patch。

• 同时,sora是diffusion transformer。transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今,视频领域同样表现优异。

• sora模型 vs 基础模型:基于transformer的sora与基于u-net的基础模型相比,有提升了一个量级的视频时长(2秒到1分),更强的清晰度(4k到1080p),支持数字世界模拟,在一致性等方面均表现更优。

sora模型灵感:谷歌使用patchify技术压缩时空变量

• 2023年12月,斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型w.a.l.t。该方法成功地将 transformer 架构整合到了隐视频扩散模型中。

• 隐扩散模型(ldm)可在源自自动编码器的更低维隐空间中运行,从而降低计算需求。第一阶段,用一个自动编码器将视频和图像映射到一个统一的低维隐空间,可以在图像和视频数据集上联合训练单个生成模型,并显著降低生成高分辨率视频的计算成本。第二阶段,该团队设计了用于隐视频扩散模型的新 transformer 块,其由自注意力层构成,这些自注意力层在非重叠、窗口限制的空间和时空注意力之间交替。首先,使用局部窗口注意力能显著降低计算需求。其次,它有助于联合训练,其中空间层可以独立地处理图像和视频帧,而时空层则用于建模视频中的时间关系。

• patchify(图块化)。按照原始 vit 的设计,该团队对每个隐含帧分别进行图块化,做法是将其转换成一个不重叠图块的序列。窗口注意力。完全由全局自注意力模块组成的 transformer 模型的计算和内存成本很高,尤其是对于视频任务。为了效率以及联合处理图像和视频,该团队是以窗口方式计算自注意力,这基于两种类型的非重叠配置:空间(s)和时空(st),

• 该团队在文本 - 图像和文本 - 视频对上联合训练了 w.a.l.t 的文本到视频生成能力。他们使用了一个来自公共互联网和内部资源的数据集,其中包含约 970m 对文本 - 图像和约 89m 对文本 - 视频。

sora模型亮点一:直接在原始图片的大小上训练

• 过去:往往将视频或者图片压缩到固定大小(比如4秒钟、分辨率256*256)。

• sora:直接在原始素材规格上训练。

sora模型亮点二:为视频训练素材生成详细字幕

• 方法: re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型,然后用它为训练集中的视频生成文本说明。

• 技术来源:dall e3中已经使用过,使用gpt将简短prompt转化为详细说明,这些说明会被输入到视频模型中。

• 优点:增强文本理解能力,可以提高文本的保真度和视频的整体质量,使得sora能够生产准确遵循用户提升的高质量视频。

2.2 sora应用一:图片生成视频

• sora除了可以支持文字生成视频,还可以支持图片或视频作为输入,生成视频。

sora应用二&三:视频编辑、视频拼接

sora应用四:图片生成,更高像素

2.3 sora核心能力一&二:3d一致性&物体持久性

• 视频生成模型最大的挑战:长视频序列保持时间一致性。

• 源于规模效应,sora生成的人物和场景在三维空间的移动十分自然。

• 有效模拟短期和长期依赖关系:物体被遮挡或暂离画面,也可以准确表示它们。

• 长时间序列外观一致性:能够在单个视频中生成同一角色的多个场景,保持外观一致性。

sora核心能力三&四:世界交互&模拟数字世界

• 世界交互:模拟简单行为方式影响世界状态,如吃汉堡后留下咬痕。

• 模拟数字世界:如视频游戏。以“minecraft”为例,sora能控制玩家角色,以高度逼真方式模拟游戏世界变化。

2.4 sora模型的局限性

• 但是,sora还存在不少局限:

虽然能模拟一些基础物理互动,比如玻璃的碎裂,但还不够精确;

其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化;

长视频中存在逻辑不连贯,或者物体会无缘无故出现的现象。

--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 x 由【报告派】定期整理更新

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

科技 / 电子 / 半导体 /

人工智能 | ai产业 | ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5g | ga射频 | igbt | sic ga | sic gan | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | led | oled | led封装 | led芯片 | led照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子fpc | 电路板 | 集成电路 | 元宇宙 | 区块链 | nft数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |

2024-08-25

2024-08-25

2024-08-25

2024-08-25

2024-08-25

2024-08-25

2024-08-25

2024-08-25

2024-08-25

2024-08-25


金沙娱场城app copyright © 2024 金沙娱场城app-老版金沙app下载客户手机端  北京智识时代科技有限公司  金沙娱场城app的版权所有 

网站地图