2024-2-17 03:30 /
原文链接:效果炸裂!OpenAI首个视频生成模型发布,1分钟流畅高清,网友:整个行业RIP

OpenAI发布了Sora,目前SOTA的视频生成模型,把视频生成的质量提升到了一个真正意义上的实用高度。

首先需要强调,视频生成模型很早之前开始就有研究,如Runway, AnimateDiff, AnimateAnyone, StableVideoDiffusion等,为什么这次把OpenAI的模型单独放到台面上来讲,是因为其模型的能力完成了质量上的突破。如果给以前的技术根据的实用性、“血统纯正性”评分是0.3,0.5,0.7,那OpenAI的模型就是1.0,完成了从0到1的突破。

这件事情喜忧参半。对于大多数人来说,这件事情可能是一件好事:制作视频的技术门槛变得非常低,影视场景的制作成本会大幅下降,行业降本增效,加快产品循环,普通人能接触到更多符合人视听感官的信息,综合信息形态升级。但是另一方面,OpenAI的举措进一步强调了一个对于研究人员来说不那么乐观的现实:AI领域的研究依附于基础设施,没有大规模的显卡集群的中小lab很难进行研究。同时,通过量变引发质变的手段也变成了公开答案,AI领域研究的竞争最终转化为并非技术而是资源的竞争

其实这一趋势是可以预见的,去年前杨植麟就提到这个未来,OpenAI发布视频生成模型是迟早的事,即使没有OpenAI,一个通用的视频生成模型的出现也仅仅是时间问题。按照这个假设继续推演,CV正在迎来和NLP一样的窘境,无法进入头部实验室和企业的科研人员在此领域的研究将难以为继(这未尝不是一件好事,毕竟现在很多的科研没有创造实际意义上的价值)。虽然这并非新鲜事,但是OpenAI确实带来了一次前所未有的危机感,让人感到担忧。

在这个趋势下,动画这个利基领域的研究有如下几种可能

(1) 小领域中的问题无意间被General Model顺带解决了。
由于通用模型够大,数据量足够海量,导致不需要专用的数据进行训练,也能以非常好的效果生成手绘动画。

(2) 小领域中的问题依葫芦画瓢就能得出答案。
过程已经确定了:大模型就是堆算力和堆数据,金钱就是门槛。其中技术的部分反而占小成。只要收集到的手绘动画数据足够多,显卡足够多、每个人都可以发布一个非常robust的模型,(除了版权哪里来的外)基本没有什么秘密可言。

(3) 小领域的问题会变得更加垂直。
为了躲避寒风,则需要更加深入地底。自动作监、自动中割、自动上色等的研究需要更加行业专业化、与用户需求深度融合。想要AGI模型难以发挥其作用,要么绕开它,要么刁难它绕开指的是将问题剥离AGI的范畴,去强调一些和Generation相左的思路或者情景。刁难指的是强调已有的AGI不能做到的场景,如更细粒度的控制需求,怎么控制角色精准地运动。

(不过话说回来,答案也没有那么显而易见。思来想去,貌似一切问题都可以转化为Generation:自动上色可以通过生成后下游量化采样避开其局限性,角色控制可以通过DragGAN和GragNUWA等思路完成,甚至包括动作的设计都可以交由Memory-Anything的模型完成..... 除了由差异化竞争导致的唯结果论,实在是找不出来比“我用这个领域的数据,所以模型效果更好”更有说服力的理由了)

按照个人的经验,以上三种情景会尽数发生:AGI摧枯拉朽的同时,部分的小领域问题会被先解决。同时,Research的硬件门槛在提高,在小领域中缺乏算力的lab将面临有效模型难产的问题,除非是去深入挖掘和行业密切相关的底层场景。

当然这并非就说小领域的寒冬瞬息而至,有一点我们可能忽视了:不管AGI如何兴风作浪,从事实上看,小领域中目前确实是乏善可陈,研究成果也存在着一定的空白(虽然解法已经确定),其他研究者或许同样面临着相似的难题。这个领域还存在空位,那就具有一定的研究价值,还是有一杯羹可以分。不过这样做的出路在哪,有什么意义,是否能够形成技术壁垒,那就是后话了。
Tags: 笔记 杂谈