智东西(公众号:zhidxcom)
作者 | genaicon 2024
2024中国生成式ai大会于4月18-19日在北京举行,在大会第二天的主会场aigc应用专场上,vast创始人兼ceo宋亚宸以《大模型tripo驱动3d生成迈入秒级时代》为主题发表演讲。
从文字、图片到视频、3d,信息载体不断升级,宋亚宸谈道,3d的体验质量、信息密度不断提升且更具互动性。他认为目前3d生成已经达到类似midjourney v3的效果,今年9月将达到类v4效果,年底达到类v5/v6效果,实现真正可用,甚至通过图灵测试。
vast是3d生成模型领域的第一梯队玩家,已打造全球最大的几个3d生成开源社区,并与stability共同开源了全球最大、0.5秒图生3d模型triposr。其创始人兼ceo宋亚宸也是首位在计算机图形学顶会siggraph上发表主舞台主题演讲的中国创业者。
据宋亚宸分享,vast的3d大模型tripo上线百余天内生成了超过200万个3d模型。为了应对3d生成创作成本和门槛过高的挑战,vast将3d内容平台和大众级创作者平台结合。当前这家创企已拥有超过200家b端客户,并基于其平台开发出原生ai爆款小游戏,一周突破10万用户。
以下为宋亚宸的演讲实录:
aigc会使游戏的创作门槛和成本无限降低,这就是我们做的事情。
我们是做3d大模型的公司,产品核心就是将用户输入的文字或者图片快速生成3d模型。3d模型可以在游戏、动画、影视、元宇宙、3d打印等行业中直接使用,其本身带有mesh、贴图、材质,你可以进入传统管线二次编辑,进行驱动、渲染等。3d模型还可以拥有带骨骼、带动作等格式,出现很多种有意思的使用方式。
那么,我们为什么要做3d这件事?
文字、图片、视频、3d中,3d是非常特殊的品类,从文字、图片、视频到3d是信息载体不断升维的过程,3d也被认为是最终的信息载体,其信息密度、体验质量都在不断提升,同时拥有双向互动性。
因此,我们相信世界正在进入一个3d新时代。
一、3d生成迎新拐点,今年做到midjourney v5/v6水平
为什么现在做3d生成这件事情?openai的gpt-3刚发布时,关注的人并不多,在其基础上做的应用、开发也相对较少,仅有如replika等少数几个应用,大家对它的认知比较少,使其很难进行商业化。
直到2022年11月份,chatgpt的发布成为了一个非常大的拐点,我们称其为用户的aha moment(顿悟时刻)。这一产品对整个行业、逐步进行商业化、用户量提升都有很大的影响。
midjourney也类似,2022年7月份v3推出时,用户量并不多,也没有收费功能,知道midjourney的人寥寥无几。直到半年以后,midjourney于2022年11月份推出v4,我们认为这诞生了文生图的下一个拐点,在这个拐点上有了非常大的提升,其产品的用户量、收费方式、商业化等都得到了满足。
再来看3d,我们现在看到的3d生成,类似于midjourney v3的水平,但已经可以在一些场景使用起来了。
预计到今年9、10月份,3d生成可以达到midjourney v4的水平;今年年底可以达到类似于midjourney v5的水平,通过图灵测试,并带来一次非常大的商业变革。
从3d生成的演进过程来看,除了像我们这样的创业公司,谷歌、英伟达、openai、meta、adobe等海外企业都已进入到3d生成这个领域。
在学术上,我们从布局3d原生路线、2d优化路线、多视角生成、编辑动态场景到人物生成,在cvpr、iclr等国际顶会上都发表了大量论文,并开源了相应技术。
全世界最大的几个3d生成开源社区都是由我们做的,比如与stability ai共同开源了全世界最大、效果最好的图生 3d大模型triposr,我们还开源了全世界最大的3d算法框架threestudio、超火爆的单图生3d算法wonder3d,以及tgs、csd等开源项目。
我们预计2024年年底会把3d生成做到midjourney v5甚至v6的水平,达到下一个爆发时刻。
3d的核心在于可交互、可体验,甚至带一些游戏性。所以我们会同步做3d动态的内容生成,包括骨骼的自动绑定、动作生成,这已经在我们产品里上线。
同时,我们认为在明年或许会实现,每一个人都有能力去生成无限个属于自己的3d内容,不管是游戏、xr体验,还是任何的3d内容,这也是我们对整体3d内容生成趋势的判断。
二、3d创作门槛和成本太高,需要大众化3d内容平台
我们刚刚讲了很多ai 3d技术,但我更希望和大家分享我们是怎么把ai 3d玩起来的。
我们认为ai 3d是在拓展人类能力的边界。我随便在门口拉个人进来,让他给我发一个twitter,可能只需要5秒钟。我说你再给我发一个tiktok,他做一下剪辑,可能2分钟就能搞定。如果我让他做个游戏,他可能会说:“好,给我3年时间、1000个人、2亿美金,我给你做个游戏。”这是很正常的。
3d为什么这么特殊?是因为其创作门槛和成本太高,它没有诞生出一个属于自己的内容平台,同时也没有实现内容的爆发。
我为什么这么说?比如我刚刚举的例子,文字有微博、贴吧作为内容平台,图片有instagram、小红书作为内容平台,视频有tiktok、抖音、快手、youtube,音乐有spotify,甚至声音都有喜马拉雅,但是3d缺少大众的内容平台。核心就是生成门槛和成本太高了。
如果有一天我跟你说,发个小红书需要给我10万块钱、拍个tiktok需要3年,那你可能就不会发布内容了。因此,核心点在于3d内容成本高,如果需要1亿美金,我就得赚1亿美金回来,自然使得其内容非常少。
但如果有一天,3d内容的成本被降到无限接近于0,是不是每个人都可以低成本创作3d内容?这样一来,创作3d内容不再是为了赚钱,而是像发小红书一样,宣泄自己的情感、表达自己的想法、炫耀自己的创意,这可能是未来每个人制作3d内容、做虚拟世界、探索各种各样虚拟玩法最核心的诉求,不需要再考虑怎么赚钱。
3d创作者也会发生变化,不再是游戏大厂里面的建模师、动画师,可能是我们在座的每一位,所以我们在拓展人类的边界。
今天在大会上,我们在讲文生文、文生图、文生视频、文生音乐、文生声音等各种各样的生成方式,我今天也学习到了很多。但是我们看到人用键盘打字、用手机摄像头拍照、p图、拍视频、加滤镜等本身都是非常容易的事情,ai只是一个工具。
在所有的内容品类中,除了3d,ai提供的都是alternative(可被选择的),只有3d提供的是从0到1的过程,它拓展了人类的能力边界。
我们做3d生成就是希望降低用户创作的门槛和成本。并且,我们认为成本下降后,当3d出现自己的“手机摄像头”时,就意味着3d出现了类似于“抖音”和“快手”的机会。
因此,我们希望做一个属于自己的3d内容平台、自己的大众级别创作者工具。当大家不断使用这些创作者工具和内容平台时,我们就会有更多数据,从而形成数据飞轮,让更好的技术带来更好的产品体验、更多的用户带来更多的数据。
当然,我们面向的用户更为关键,同赛道的一些其他玩家对于拿ai 3d做什么,大家的答案可能各不相同。
对于我们而言,我们可以给好莱坞、横店、宝莱坞的导演、摄影师提供“手机摄像头”。但是“手机摄像头”给大家带来的可能是移动互联网时代的“收钱吧到账500块”。例如用“每刻报销”节省时间报销,省下来的时间你可以去拍小红书、拍tiktok,或者创作自己想要做的视频和图片内容。这件事情可能对于我们来说更关键。
虽然,我们也有很多游戏、动画、影视的应用,但长期来说,我们希望服务的是在座的、看直播的每一位,让每个人都有办法去创作3d内容。
三、生成3d模型超200万,ai原生小游戏一周突破十万用户
给大家讲一下我们产品上线的情况。
今年年初,我们上线了3d大模型tripo,百天内生成超过150万个模型,现在已经生成200万个模型。
这是什么概念?上个月在硅谷参加gtc,我们与全世界一些全球顶级的模型交易平台交流,这些平台积累了十几年,每个平台沉淀的模型大概有190万~200万个。而我们在短短三四个月就已经超过他们了,这就是aigc的力量。
看数据其实很难有感观,但确实看到社区中有很多很有意思的东西。一些kol、老版金沙app下载客户手机端的合作伙伴、有意思的创作者会和magnific等ai工具结合形成完整的工具流,然后将其放到《堡垒之夜》的ugc平台、roblox等场景中,展示给其他的创作者。欢迎大家关注老版金沙app下载客户手机端的twitter账号@tripoai。
在与游戏公司的合作方面,除腾讯、网易这样的游戏大厂,我们也会和5-10个人的游戏工作室合作。因为我们的出现,这些游戏公司不再烦恼没有足够的资金去招一线的美术团队、招十几个3d美术专家,现在他们只需要使用我们的3d生成能力,就可以快速完成角色设计、场景设计、关卡生成等工作,实现降本增效,打通其游戏的资产管线。
同时,很有意思的一点在于,它会出现一些原生ai玩法。
例如tripogo小游戏,开发者仅用了不到一个月的时间开发,其玩法是你生成一个3d模型,我生成一个3d模型,然后互相打,谁打赢了就可以拿到对面的prompt(提示词)。比如你是“胡桃夹子抽雪茄”,我是“路易十四开法拉利”,我把你打赢之后,我就变成了“胡桃夹子抽着雪茄开法拉利”。
虽然这个小游戏的玩法并不复杂,但是第一天就拥有1万多个用户,一个礼拜之内突破了10万用户,这就是ai原生玩法的力量。
还有更多的展示,包括动画生成、场景生成等。很多年轻开发者动手能力非常强,基于我们的3d生成能力做了很多自动化工具,比如comfyui的节点、各个引擎的插件等等。他们也会开发自己的web app小游戏,并展现出来。
同时,我们还有苹果vision pro的应用,本质上就是你在虚拟世界里面,可以通过声音、文字、图片生成3d模型,生成后将它摆到任何地方,然后让它跳舞、跟你合照等。所谓的“言出法随”就是这样,每个人都变成了3d的“神笔马良”。
我们的slogan是为世界进文明,为人类造幸福。我们的官方网站tripo3d.ai现在可以免费注册,同时可以使用我们的开放平台。
以上是宋亚宸演讲内容的完整整理。