剑指Sora！120秒超长AI视频模型免费开放

新闻公告

剑指Sora！120秒超长AI视频模型免费开放

发布时间：2024-04-15 22:44:29

声明：本文来源于微信公众号新智元（ID:AI_era），作者：新智元，授权站长之家转载发布。

【新智元导读】近日，Picsart AI Resarch等团队联合发布了StreamingT2V，可生成1200帧、2分钟的视频，一举超越Sora。同时，StreamingT2V作为开源世界的强大组成部分，可以与SVD和animatediff无缝兼容。

120秒超长AI视频模型来了！不仅比Sora长，还免费开源！

近日，Picsart AI Resarch等团队联合发布了StreamingT2V，可生成1200帧、2分钟的视频，质量也很好。

论文地址:https://arxiv.org/pdf/2403.14773.pdf

试用Demo：https://huggingface.co/spaces/PAIR/StreamingT2V

开源代码:https://top.aibase.com/tool/streamingt2v

而且，作者说，两分钟不是模型的极限，就像Runway之前的视频可以延长一样，StreamingT2V理论上可以实现无限长。

在Sora之前，Pika、Runway、Stable Video Diffusion（SVD）等待视频生成模型，一般只能生成几秒钟的视频，最多延长到十秒以上，

Sora一出，60秒的时间直接持续秒杀Runway的一群模型CEO Cristóbal Valenzuela当天发推说：比赛开始了。

——不，120秒的超长AI视频来了。

虽然Sora的统治地位不能马上动摇，但至少要在时间上扳回一城。

更重要的是，作为开源世界的强大组成部分，StreamingT2V可以兼容SVD和animatediff等项目，更好地促进开源生态的发展:

从发布的例子来看，目前兼容的效果还是有点抽象，但是技术进步只是时间问题，卷起来才是最重要的~

总有一天我们可以用它「Sora开源」，——你说是吧?OpenAI。

免费开玩

目前，StreamingT2V已在GitHub开源，同时还在Hugingface上提供免费试用，等不及了，小编马上开始测试：

不过貌似服务器负荷太高，以上这个不知道是不是等待时间，反正小编也没能成功。

目前，试用界面可以输入文本和图片两个提示，后者需要在下面高级在选项中打开。

在两个生成按钮中，Faster Preview是指分辨率较低、持续时间较短的视频。

于是小编转向另一个测试平台（https://replicate.com/camenduru/streaming-t2v），以下是文字提示，最终获得测试机会：

A beautiful girl with short hair wearing a school uniform is walking on the spring campus

但也许是因为小编的要求比较复杂，所以产生的效果有点吓人，你可以根据自己的经验来尝试。

以下是huggingface上给出的一些成功案例：

StreamingT2V

「世界名画」

Sora的诞生带来了巨大的轰动，使Pika在前一秒闪闪发光、Runway、SVD等模型直接变成「前Sora时代」的作品。

但正如StreamingT2V的作者所说，pre-Sora days模型也有自己独特的魅力。

模型架构

StreamingT2V是一种先进的自回归技术，可以在没有任何停滞的情况下创建运动动态丰富的长视频。

它保证了整个视频的时间一致性，与描述性文本紧密对齐，保持了高帧级图像的质量。

从现有文本到视频扩散模型，主要集中在高质量的短视频生成（通常是16或24帧）上。当直接扩展到长视频时，会出现质量下降、僵硬或停滞等问题。

人工智能生成视频

通过引入StreamingT2V，视频可以扩展到80、240、600、1200帧，甚至更长，并且有一个平滑的过渡，在一致性和运动性方面优于其它模型。

StreamingT2V的关键组件包括：

（i）称为条件注意模块(CAM)短期记忆块，根据前一块中提取的特点，通过注意机制调整当前一代，实现一致的块过渡；
（ii）称为外观保留模块(APM)它来自长期记忆块第一从视频块中提取高级场景和对象特征，防止模型忘记初始场景；
（iii）一种随机混合的方法可以自动将无限长的视频返回到应用视频增强器中，而不会出现块之间的不一致性。