号称颠覆世界认知的sora，经得起逐帧细品吗？ -金沙娱场城app

作者：动画学术趴发布时间：2024-04-02

作者 / pel

“或许侵权争议的问题还在其次，但看完这七部短片，你觉得我们的就业市场和媒体环境准备好接受这样的‘世界模拟器’了吗？”

聊天机器人chatgpt与文生图程序dall·e背后的研究组织openai，在上个月发布了文生视频应用sora，再次震撼了业界。

这段时间，与sora有关的讨论甚嚣尘上，乃至教学课程和概念股被炒得飞起。然而抛开惊叹的情绪和专家的推测，除却简短的技术报告和官方演示，大多数人对sora仍然一无所知。

3月25日，openai在官方博客发布了新的博文：“sora：first impressions”，openai邀请到了7组创作者，艺术家、广告公司、音乐家……他们得以第一时间体验sora，反馈使用体验，并带来了七组用sora创作的短片作品。

本文不涉及艰深的算法技术，而仅仅是对这七部成片的观察，把它们当成一部像《爱死机》那样的短片合集，来看看sora创作的效果和局限吧——

*关于背后技术很多媒体科普过了，大可直接看官方的研究报告：https://openai.com/research/video-generation-models-as-world-simulators

openai虽然是一家非盈利机构，但已许久不开源核心数据，也不排斥商业合作，根据好莱坞媒体deadline报道，sora团队早已先行接触了好莱坞多家制片公司。

“sora：first impressions”这篇博客当然不是单纯的作品展示，而是颇有引发媒体事件，获取行业背书，进而为自家产品营销造势的意味。

从这七位创作者的社交媒体和过往作品可以发现，他们虽然有着不同的教育工作背景，但大多是没有大公司背景、对ai保持积极态度且乐于试验和分享的青年创作者，也是体量中等的kol。

1. 故事片：shy kids – “air head”

首先是第一部片子：由shy kids制作的《air head》（气球人）。这也是在全网博得最多关注的一支短片。

原因无他，有镜头叙事、有台词、有剧情。

这部影片的开头稀松平常，一个男人走出门外，骑上自行车。

特写镜头怼着身体局部来拍，待到20秒左右才揭示看点——主角的脑袋是个大大的黄色气球。

接着用摄影闪光灯的转场，衔接了幼时和结婚摄像的两个镜头，再转回当下的自己，巧妙地向观众展示了主角的成长故事，为接下来的自述铺路。

随后是两个关于气球头如何生活的幽默小段子——刮大风天和逛仙人掌店的时候都得小心。

连续跳切，气球人主角透露自己会四处旅行。再接着是气球浮空在全球各地上空，以及主角面对镜头记录生活体验的镜头。

显然影片想表达的是，我们的生活如何脆弱（就像气球），尽管如此，我们也可以（像气球那样）把生活过得尽量轻盈，多多体验人世的欢乐。

本片和其他sora示例一样，在保真度（fidelity）上展现了极强的能力，拿给路人乍一看确实很难分辨“真假”。sora能够基本保持画面在拟真的同时具备物体运动和3d透视的一致性，并支持广角镜头、怀旧滤镜等特殊画面效果。

而制片方shy kids对sora的评价，去掉那些客套和夸赞，简而言之就是一句话：sora在「看起来真实」上很强，在「超现实」上更强。

因此《气球人》最巧妙之处，在于制片团队如何编排创意。

此前openai官方称sora最多可生成一分钟视频，而这七部短片里包括《气球人》在内共有三部影片长于一分钟，因此大部分影片应当是由多个工程/多组对话生成的视频拼接而成。

在这种情况下，《气球人》拼接了多个不相关的场景片段，用旁白自述和气球脑袋串联起了连贯的叙事，同时规避了现阶段sora不同视频之间可能无法保证稳定一致的问题。确实称得上巧妙。

让笔者想起了youtube早期网红定格动画《marcel the shell with shoes on》，虽说影视实拍要完成类似作品不是难事，但确实是在有限条件下发挥的精彩创意。

但是如果进一步逐帧“挑刺”，还是能发现诸多有问题的细节。

最大的问题在于，同一个镜头组的信息不一致。

例如开头这段骑行的镜头，裤子的颜色变化尚可以用光线角度来解释，但主角的鞋子时而白色时而黑色。

自行车后轮的结构也不对，后下叉直接消失了！

通过转动方向可以判断是后轮而非前轮，后下叉（自行车结构术语，自行车后半部分三角结构下方的横杠）消失了

这或许就是开头的镜头都怼着局部而不放角色整体的原因吧。不知道openai给这些创作者的工期多久，是来不及调试，抑或在现有版本就是很难做到让不同镜头（视频）的信息保持高度一致，并顺利拼合成表达完整意思的镜头组。

另外，在同一画面内的对象过多时，还是会有扩散模型的老问题——粘连和变形。

另外很有意思的一个点是，sora视频试图模拟真实影像的动态模糊效果，结果却导致左手变成了一根不知名的条状物。

2. 意识流：导演paul trillo与艺术家/音乐家august kamp

来自导演paul trillo和艺术家/音乐家august kamp的作品都类似于mv，影像内容更加意识流，不表达具体的含义，这里归成同类。

paul trillo的影片看似复杂，但大体可以拆分成两部分。

一部分，是在多个场景下持续向前穿梭的镜头。开头10秒将海底、小镇等多段视频打散后重新拼接；30秒—50秒则是“一镜到底”穿梭在金字塔、图书室等多个空间。不过分辨率非常低。

这也是sora初次发布时官方就提到过的能力，官方文档在介绍sora图生视频、视频生视频的能力时着重强调，sora可以非常轻易地「前后向扩展视频」，并将不同的场景拼接起来，因此很适合制作循环视频和动态照片。

另一部分，则是在00:12-00:27、00:49-00:55秒和00:55-01:12分别描绘光片、垃圾、液金材质的的人形角色动作。

他们有的在游荡后变成球体飘在空中，有的在跳舞，有的在极度摇晃的空间跳跃。最终回到一个往后倒退的圆环结构。配合节奏渐缓的电子音乐，模模糊糊地传递了一种“神形俱灭，万法归一”的意味。

august kamp的影片更加抽象，基本只有钻石和装置两个主要的对象，全程被一种诡异、湛蓝、低保真的氛围笼罩，还有一些类似游戏hud的面板和无法解读的文字。配乐是他还未发布的一首原创音乐。

这两位创作者都认为，sora的最大优势是让他们脱离了“现实的束缚”，paul trillo认为sora的优势不在于拟仿已有的真实，而是能不受时间金钱等条件的束缚，把新鲜的创意快速落地。august kamp也认为“能够直观的构建和迭代视觉效果”为他开辟了新的创作方向。

3. 广告片：创意总监nik kleverov与josephine miller

nik kleverov和josephine miller二位的身份都是“创意总监”。前者就职于曾获艾美奖的创意机构native foreign，专司品牌包装与ai工作流，后者就任于伦敦oraar studio，专门从事3d视觉、xr设计与数字时尚。

nik kleverov的影片以钟表匠老人开场；随即是黑白镜头下20世纪初的都市风貌和俊男美女；镜头再一转，来到了一家同样古典风味十足的自行车修理间。

光影很真实，但背后自行车的结构再次出现问题，看来自行车结构对ai来说还是蛮复杂的

这部片子的镜头同样没有形成连贯的叙事，配合舒缓的音乐，更多是在渲染氛围。

后半段汽车、运动鞋、饮料等产品先后亮相，再结合前半段钟表、自行车、年轻人、老人的意象，影片的主题昭然若揭，以“时间流逝”的概念营造氛围，末了再强调品牌之经典隽永。

josephine miller的影片相对更简单，就是三段竖屏视频的横向拼接，更像是产品演示——只不过时装由ai生成，现实并不存在。

但不得不说，无论水体还是衣服布料的流动卷曲都非常自然，尤其中间一幅，镜头再往上一点就是水面，可以看到复杂的阳光照射和反射效果，同样效果如果采用传统cg流程制作，是要花大力气才能实现解算的。

最右边这一幅，布料自上而下的飘动有些让人难以理解，模特上半身的布料像是突然“生长”了出来。不过值得赞叹的是，即便在如此大幅度摆动的情况下，模特的手却并没有莫名其妙的穿模、粘连或重复。

二人的反馈都提到，sora最大的优势在于可以帮助他们在不花费太多预算的情况下，在项目前期就将创意快速概念化、可视化，并有可能快速迭代。

4. 伪纪录片与雕塑原型：don allen stevenson iii与alex reben

最后两项是来自alex reben与don allen stevenson iii的雕塑原型与伪纪录片。

前者没什么好说，作为openai首位驻地艺术家，他此前就多次以dall·e生成的ai绘画为原型制作真实雕塑，并举办了名为“ai am i?”的展览，影片就是对sora生成虚拟雕塑的旋转展示。

其中比较有趣的是中间白色玉环状的雕塑，每旋转一圈，面向观众的中间孔洞的形状就会出现些许变化，不知是故意设置抑或只是sora的缺陷。

don allen stevenson iii的伪纪录片作品就比较“吓人”了，这部影片将现实中的动物“两两拼合”，火烈鸟长颈鹿、兔兔犰狳、鲸鱼章鱼……各自生成了一段8秒左右的运动影像，加上比较正经的配音和视觉包装，制作成了一部伪纪录片的预告。

每转一圈换一个形状，让笔者想到了去年在费那奇动画周上看到的实验动画短片《银幕》（蔡采贝导演），一块锡纸（银幕）动啊动转啊转，带原始生命走出洞穴，望向银幕

don allen stevenson iii的职业生涯从梦工厂动画开始，如今专注xr与ai相关创意开发，他认为sora那些不遵循现实定律的怪异之处反而是优势，使用sora也让他创作时的注意力从聚焦技术变成聚焦创作，时间和精力用在了“对的地方”。（i feel like this allows me to focus more of my time and energy in the right places. ）

但事实上，影片中并没有出现真正意义上的幻想生物，而仅仅是两种现实生物的样貌融合，运动方式和生活环境也仅仅是对其中一种生物原有习性的“跟随”，看不出太多创作者或sora的风格特质。

在笔者看来，“对的地方”这句话听上去颇为刺耳。这部伪纪录片也是笔者主观最讨厌的一部作品。为设计做参考、为影片做视效，ai当然是工作提效的好帮手。但难道让ai为自己的创意代劳，才是创作者倾注时间精力的“对的地方”（the right places）？

且不说对许多人来说绘画摄影本身就具备乐趣，其实人类操控ai的所谓“创意能力”“审美能力”，难道不就是来源于那些看上去重复枯燥、先前并不知晓后果的学习、创作和生活体验？

基于目前官方示例和七部影片的水准，我们大概能设想关于sora的一些局限

单个视频里那些“出戏”的小问题，对象一多仍然会变形，切镜头的表现也不够自然。
如果要用不同视频拼接表意的镜头组，比较难保持画面信息的一致性。（比如《气球人》）
目前还没有任何一部角色开口说话的sora生成视频，更不用说对上台词口型了

sora官方示例中单视频多镜头的效果，左转到头再略微右转再切镜，不像影视语言倒像操控游戏的第三人称视角

与此同时，除了被说烂了的“真实”，笔者认为sora对产业而言最主要的优势在于：

沿袭chatgpt与dall·e的优势，对自然语言的高度理解。
能快速出一段高保真度的短视频作为演示参考，用来让外部客户和内部团队增加选择、对齐需求。尤其影视行业可能把它加入pre-vis流程？细节有问题也无妨，真要用于高精度长篇幅生产了，大可届时再让人类员工和传统流程介入。
在影视创作中，低成本实现一些仅出现几秒钟的高难度桥段。例如海啸席卷火山喷发等奇观特效和动画中的跳舞打斗等高难度动作。院线电影出于精度和稳定性考量或许还没那么快用上，但中低成本制作的网剧或短视频能因此拥有“看起来”很强的特效。

既然如此，sora为什么还不开放？

个中想必有内外各种复杂的缘由，但绝不只是出于技术限制或金沙娱场城app的版权争议。一方面，比它效果更差的pika、runway都早已向大众开放并推出收费计划；另一方面，虽然和其他扩散模型一样爬取了互联网上千万图像，但openai旗下的dall·e 3早已正大光明地声明“创建的图像可供您使用，无需我们的许可即可复制、出售或行销。”

在笔者看来，伦理道德难题才是aigc面临最大的困扰，左翼学者比弗（franco "bifo" berardi）的担忧不无道理：

“自动装置（automaton）不只是单纯的自动化，更可以是「自动化」与「认知」结为连理的产物。人工智能比自动化更加聪慧，它不仅代劳执行任务，还代劳确定目标。

「工业化的自动装置」重在「方法」，旨在找到合理或机械的方法实现给定的目标，旨在用技术执行原本人类所做的任务，并替代人类。

但「人工智能的自动装置」恰恰相反，重在「结果」，它旨在为自己建立意愿。”

如果说此前midjourney等ai绘图工具生成的图像，还更多依然被大家当成“工艺品/艺术品”（的仿制品）来看待。那么sora生成的“高保真影像”则夺走了摄像机的特权，成为一个有极大潜力影响人类心智的自动装置。相比于实拍影像，它无需演员，支持幻想和伪造；相比于cg，它一跃跳过了“恐怖谷”的沟壑，成本更低，产出更快。

图片源自sora技术报告，其他条件保持不变，只要增加训练计算量，生成视频样本的质量就有明显提高

尤其2024正值全球选举大年、tiktok遭封禁边缘、虚假新闻与网络诈骗横行，在这样的媒体环境下，openai宣称在正式发布sora前，会投入大量资源组建red team（假想敌）团队评估危害保障安全，让算法更“懂”道德。

而虽然openai早声明自家的产品会拒绝生成暴力、性爱、仇恨、公众人物、在世艺术家风格的相关主题内容。但规则必然伴随漏洞，我们都知道在dall·e里，用“平替”的描述性提示词生成上述某些内容，并不是很难做到。

七部影片形态各异，但确实展示了影像创作者驾驭它的几种可能——故事片、意识流、广告片、伪纪录片、艺术原型……sora开放使用之后，不难想象将有一批企业/工作室/创作者踩着风口摩拳擦掌，一手准备尝试挑战sora的极限，制作影片惊艳业界，另一手盘算如何用sora降本增效，代替原有工作流中费时费力费人的环节。

或许侵权争议的问题还在其次，但看完这七部短片，你觉得我们的就业市场和媒体环境准备好接受这样的“世界模拟器”了吗？