抖快和清华系“国产sora”对比实测：细节及动态控制不足，物理学又不存在了？ -金沙娱场城app

作者：搜狐科技发布时间：2024-08-23

清华 sora

（图片来自ai生成视频截图）

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

半年前，openai公布了ai生成视频产品sora的演示视频，一经推出引发不少赞叹。如今，sora依然是个期货，而在国内，ai生成视频已成为最卷的赛道之一。

从抖音、快手，到清华系的智谱ai、生数科技，它们在短短几个月迅速出手，还不像sora那般卖关子，迅速从内测走向全球发布。

从演示视频来看，这些产品虽然时长普遍不及sora的一分钟，但不少人都感叹内容效果可媲美sora，一些影视从业者还用这些产品做出了酷炫的ai科幻大片。

这些“国产版sora”效果到底如何？搜狐科技就此针对抖音即梦、快手可灵、智谱清影、生数vidu进行了横向对比测评。

目前，这四款产品都有文生视频和图生视频两种形式，部分产品还在研发类似sora的视频生成视频功能，但尚未对外开放。

从基础功能来看，sora可最长生成60秒的视频，即梦则有3秒、6秒、9秒和12秒可选，可灵支持5秒和10秒，清影为6秒，vidu支持4秒和8秒的视频生成。

即梦和可灵的ai生成视频界面

即梦还能选择运镜控制方式（移动、旋转、摇镜、变焦等12种类型和小中大三个幅度）、运动速度（慢速、适中、快速）、模式选择（标准模式、流畅模式）以及视频比例（共计6种），可以说给用户提供了最多的选择，最具产品思维。

相对来说，可灵在时长、视频比例、运镜控制等方面的选择较少，但特色是可以规避不希望呈现的内容，清影和vidu则整体更加简洁，但清影可以在线添加背景音乐。

清影和vidu的ai生成视频界面

为更加直观的对比，搜狐科技选择sora此前受到较多关注的视频所采用的提示词和图片，来看看“国产sora”们的表现如何（即梦、可灵、清影、vidu的评测时长分别为12秒、5秒、6秒、4秒）。

这几款产品生成的视频均为一次性生成。sora发布的视频整体效果不错，但可能经过了多次调整、优化，因此sora生成的视频仅作为参考。

提示词1：一个中国农历新年庆祝视频，里面有中国龙

中国农历新年、中国龙都是中国元素，它们的理解能力如何？

即梦将场景放在了古代，生成的两条龙神态表现较好，还出现了红灯笼等中国喜庆元素，但人物比较抽象。

可灵和vidu的风格比较写实，生成的龙像是套了个皮的巨大娃娃，可灵还缺乏喜庆氛围，vidu则有人与表演的互动，但生成的龙似乎多了很多爪子。

清影的喜庆氛围表现不错，还有烟花，但龙舞动的过程不太流畅，且画面还会糊。

提示词2：一个男人吃汉堡并在汉堡上留下咬痕

对于这个以人物为主体的提示词，即梦最初的人物表情不错，但随着人咬汉堡并开始咀嚼，嘴部出现了特别严重的鬼畜变形（视频慎点），且出现多出手指的情况。

可灵视频主体聚焦放在嘴咬汉堡的过程，咬的动作、手指等细节表现较好。

清影和vidu则均没能体现出人咬汉堡的过程，对提示词的还原度较低。

提示词3：两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频

即梦的视频缺少对部分提示词的理解，没有体现出是在一杯咖啡中，也没有相互争斗的感觉。

可灵生成的两只船都在咖啡杯边缘，对提示词把握不到位。

清影的视频看着挺像一回事，船在行驶过程中产生水波，咖啡还冒着热气，细节表现较好。

vidu的视频视角更加广阔，缺乏争斗感觉。

提示词4：含有冰块的红色果汁从杯子里泼溅在桌子上

这个是sora传播较广的翻车视频，由于不能准确模拟玻璃破碎时和液体之间相互作用的过程，因此很多观点认为sora并不能理解物理世界。

“国产sora”也会犯同样的错，冰块、红色果汁等内容都能体现，但基本都没能体现出泼溅的正确物理过程。

即梦的视频美感不错，液体受到外部冲击后有泼溅的感觉，但冰块腾空跃起似乎超越了力学原理，杯中的冰块凭空生成。

可灵则完全没有体现出泼溅的过程，清影和vidu视频中的液体和冰块则直接从杯身或杯底穿过，物理学又不存在了。

总结：短文本提示词较少，对ai生成视频产品的要求相对较低，更能生成符合期望的视频。但从前述测试来看，这些产品无法每次都完全体现出提示词内容，稳定性较差，清影在生成提示词4时还多次出现异常情况。

即梦、清影部分场景细节表现较好，即梦对人物动作的控制能力较弱，且sora出现的物理问题它们也难以避免。

提示词5：几只巨大的猛犸象正在穿越雪地，它们长长的毛皮在风中轻轻飘动，远处是覆盖着雪的树木和壮观的雪山。下午的阳光透过薄云洒下温暖的光晕，低角度的镜头令人惊叹地捕捉到了这些大型毛茸茸的动物，展现出了美丽的摄影效果和景深。

即梦的视频整体美感不错，对猛犸象的神态刻画比较生动，但行走过程不是特别流畅，间歇性地出现了五条腿。

可灵生成的是没有象牙的猛犸象，且没有毛茸茸的感觉，行走过程和光影细节表现完美。

清影则生成了一群猛犸象，象看起来比较抽象，细节表现不足，运动感较强。

vidu只生成了两只猛犸象，行走和光影变化体现较好。

提示词6：一位时尚女士走在东京的街头，周围是温暖的霓虹灯光和充满活力的城市标识。她穿着一件黑色皮夹克，一条长红裙，脚踩黑色靴子，手提一只黑色手袋。她戴着太阳镜，涂着红色口红，自信而随意地走着。街道潮湿且反光，彩色灯光在地面上形成了镜面效果，许多行人来来往往。

即梦视频整体色彩感观不错，但女士脸部和手部在摇动过程中出现了变形，且没有体现出走的内容。

可灵视频中的女士嘴部和手部在行走过程中有些变形，但行走过程比较自然。

清影生成的人物偏向卡通，手提黑包的细节表现较差。

vidu视频的色彩表现不够鲜明，人物行走比较自然，但手在移动过程中出现变形。

提示词7：镜头跟随一辆带有黑色车顶行李架的白色复古suv，它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶，轮胎扬起灰尘，阳光照射在suv上，投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方，看不到其他汽车或车辆。道路两旁都是红杉树，点缀着一片片绿色植物。从后面看，这辆车轻松地沿着曲线行驶，看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉，上面是清澈的蓝天和缕缕云彩。

即梦的视频镜头是在汽车前面而不是后面，也没有体现出延伸到远处的蜿蜒土路，提示词理解不够。

可灵整体表现较好，稍显不足的是镜头保持不动，土路不够陡峭。

清影的视频则像加了一层滤镜，画面偶尔有些模糊。

vidu整体比较写实，但suv凭空往后倒再向前行驶，可能是出现了幻觉。

总结：长文本涉及的元素比较多，需要生成更为丰富的场景，对ai视频产品理解文本的要求更高，更加考验视频的一致性和稳定性，即人物角色的一致性、场景风格的一致性，同时生成的画面要稳定，呈现合理的线性变化，尤其是在动态场景中，不会出现骤变的人物角色或突兀的场景切换。

从前述评测来看，这四款产品基本不会遗漏核心元素，但会出现理解偏差或变形；即梦整体美感较好，细节表现不足，清影、vidu也有类似问题，可灵对人物、物体的动态过程表现较好。

图片1：一只戴着贝雷帽、穿着黑色高领毛衣的柴犬生成视频（图片由dall-e生成）

即梦对柴犬摆头、挑眉、张嘴吐舌头等进行了动态展现，且前后没有出现变形，保持了一致性。

可灵主要是镜头的变化，柴犬本身无动态变化。清影扩张了柴犬低头、眨眼、张嘴的动作，过程中无明显变形。

vidu除了表现柴犬眨眼，还变化镜头生成了抬头的动作，一致性表现较好。

从这个示例看，除了可灵，其它三款产品的表现可以媲美sora，甚至更好。

图片2：在一个华丽的历史大厅里，一股巨大的浪潮达到顶峰并开始崩散，两个冲浪者抓住时机，巧妙地在海浪表面滑行（图片由dall-e生成）

即梦展现了浪潮达到顶峰并崩散的过程，但其中一个冲浪者凭空出现又凭空消失。

可灵和清影的视频有种慢镜头的感觉，冲浪者没有明显的滑行动作。

vidu对图片的体现不完整，冲浪者的出现和动作有些莫名其妙。

总结：图片生成视频主要考验的是ai对图片的理解能力以及“想象”拓展能力。从这两个评测来看，对于相对静态的图片，国内产品生成的视频基本可以和sora媲美，但对动态内容的生成控制能力较弱。

此次评测显示出，如何提高ai生成视频的一致性、稳定性、可控性，是目前所有产品都要持续解决的问题，而业内也在通过首尾帧控制、描述词优化，以及研发有关算法等解决。

但总体来看，目前还没有谁是全能冠军，部分产品还因时长过短更像动图，难以更好体现视频效果。

此外，视频比文本生成的成本更高，所需要的算力大幅提升，此次评测所有视频都需等待2-5分钟甚至更长时间。

未来要想规模应用，还需要在时长、内容效果上继续努力，而如何降低成本、提高大众的可用性就显得非常重要。

看了这些视频，你觉得谁表现最好？会选择用哪款产品？欢迎评论区留言！

openai chatgpt 人工智能

2024-02-17

chatgpt openai 人工智能提示词

2024-02-22

openai

2024-02-23

aigc

2024-04-01

百度文心一言教育

2023-12-13

2024-08-26

抖快和清华系“国产sora”对比实测：细节及动态控制不足，物理学又不存在了？ -金沙娱场城app

ai对话：类chatgpt产品体验

好用的ai绘画工具

火热的aigc产品

大公司发布的大模型产品都有哪些？

政府对aigc的扶持政策

aigc对就业的影响：我们会失业吗？

aigc对内容创作的影响

aigc对绘画设计领域的影响

aigc对各行各业的影响