照亮星星的人们 » 日志
关于OpenAI发布视频生成模型的一些感想

2024-2-17 03:30 /

原文链接：效果炸裂！OpenAI首个视频生成模型发布，1分钟流畅高清，网友：整个行业RIP

OpenAI发布了Sora，目前SOTA的视频生成模型，把视频生成的质量提升到了一个真正意义上的实用高度。

首先需要强调，视频生成模型很早之前开始就有研究，如Runway, AnimateDiff, AnimateAnyone, StableVideoDiffusion等，为什么这次把OpenAI的模型单独放到台面上来讲，是因为其模型的能力完成了质量上的突破。如果给以前的技术根据的实用性、“血统纯正性”评分是0.3，0.5，0.7，那OpenAI的模型就是1.0，完成了从0到1的突破。

这件事情喜忧参半。对于大多数人来说，这件事情可能是一件好事：制作视频的技术门槛变得非常低，影视场景的制作成本会大幅下降，行业降本增效，加快产品循环，普通人能接触到更多符合人视听感官的信息，综合信息形态升级。但是另一方面，OpenAI的举措进一步强调了一个对于研究人员来说不那么乐观的现实：AI领域的研究依附于基础设施，没有大规模的显卡集群的中小lab很难进行研究。同时，通过量变引发质变的手段也变成了公开答案，AI领域研究的竞争最终转化为并非技术而是资源的竞争。

其实这一趋势是可以预见的，去年前杨植麟就提到这个未来，OpenAI发布视频生成模型是迟早的事，即使没有OpenAI，一个通用的视频生成模型的出现也仅仅是时间问题。按照这个假设继续推演，CV正在迎来和NLP一样的窘境，无法进入头部实验室和企业的科研人员在此领域的研究将难以为继（这未尝不是一件好事，毕竟现在很多的科研没有创造实际意义上的价值）。虽然这并非新鲜事，但是OpenAI确实带来了一次前所未有的危机感，让人感到担忧。

在这个趋势下，动画这个利基领域的研究有如下几种可能

(1) 小领域中的问题无意间被General Model顺带解决了。
由于通用模型够大，数据量足够海量，导致不需要专用的数据进行训练，也能以非常好的效果生成手绘动画。

(2) 小领域中的问题依葫芦画瓢就能得出答案。
过程已经确定了：大模型就是堆算力和堆数据，金钱就是门槛。其中技术的部分反而占小成。只要收集到的手绘动画数据足够多，显卡足够多、每个人都可以发布一个非常robust的模型，（除了版权哪里来的外）基本没有什么秘密可言。

(3) 小领域的问题会变得更加垂直。
为了躲避寒风，则需要更加深入地底。自动作监、自动中割、自动上色等的研究需要更加行业专业化、与用户需求深度融合。想要AGI模型难以发挥其作用，要么绕开它，要么刁难它。绕开指的是将问题剥离AGI的范畴，去强调一些和Generation相左的思路或者情景。刁难指的是强调已有的AGI不能做到的场景，如更细粒度的控制需求，怎么控制角色精准地运动。

（不过话说回来，答案也没有那么显而易见。思来想去，貌似一切问题都可以转化为Generation：自动上色可以通过生成后下游量化采样避开其局限性，角色控制可以通过DragGAN和GragNUWA等思路完成，甚至包括动作的设计都可以交由Memory-Anything的模型完成..... 除了由差异化竞争导致的唯结果论，实在是找不出来比“我用这个领域的数据，所以模型效果更好”更有说服力的理由了）

按照个人的经验，以上三种情景会尽数发生：AGI摧枯拉朽的同时，部分的小领域问题会被先解决。同时，Research的硬件门槛在提高，在小领域中缺乏算力的lab将面临有效模型难产的问题，除非是去深入挖掘和行业密切相关的底层场景。

当然这并非就说小领域的寒冬瞬息而至，有一点我们可能忽视了：不管AGI如何兴风作浪，从事实上看，小领域中目前确实是乏善可陈，研究成果也存在着一定的空白（虽然解法已经确定），其他研究者或许同样面临着相似的难题。这个领域还存在空位，那就具有一定的研究价值，还是有一杯羹可以分。不过这样做的出路在哪，有什么意义，是否能够形成技术壁垒，那就是后话了。

Tags: 笔记杂谈

照亮星星的人们 » 日志关于OpenAI发布视频生成模型的一些感想

照亮星星的人们 » 日志
关于OpenAI发布视频生成模型的一些感想