英伟达华人AI版《猫和老鼠》爆火全网,60秒经典泪目!仅靠Transformer新增一层

频道:游戏专题 日期: 浏览:3

经过对基于《猫和老鼠》的动画进行测试,我们发现,与Mamba2等基线相比,TTT生成的视频在Elo评分上高出34分。

借用老黄那句话,未来每一个像素都将是生成的。

 AI猫和老鼠视频生成 __猫和老鼠专题游戏

首批1分钟无剪辑AI版「猫和老鼠」

用下面的故事概要,生成「全新的一集」猫和老鼠。

杰瑞在井然有序的厨房中享用着奶酪,心情愉悦,然而汤姆却调皮地夺走了奶酪,逗弄他。怒气冲冲的杰瑞整理好行囊,带着一个小行李箱离开了家。不久,汤姆察觉到杰瑞的缺席,心中感到难过,于是沿着杰瑞留下的足迹追踪至旧金山。在那里,杰瑞无精打采地坐在一条狭窄的小巷中,汤姆找到了他,用一块奶酪作为赔礼,温柔地向他道歉。杰瑞原谅了汤姆,接受了奶酪,两人一起回家,友谊得到了恢复。

纽约的清晨阳光灿烂,汤姆,这只身披蓝灰外衣、肩背公文包的猫咪,踏入了位于世界贸易中心的办公室。然而,在他安顿下来不久,电脑突然间熄了屏——原来,是那只顽皮的棕色老鼠杰瑞,不怀好意地咬断了连接线。随之而来的是一场激烈的追逐战,汤姆在追逐中不慎撞上了墙壁,而杰瑞则趁机逃回了自家的鼠洞。汤姆信心十足地推开了办公室的门,却意外地打断了一场由愤怒的斗牛犬斯派克主持的会议,斯派克怒气冲冲地将他驱逐出门。而在一个温馨的鼠洞中,杰瑞对这突如其来的混乱事件不禁笑出了声。

汤姆坐在厨房的餐桌边,脸上洋溢着愉悦,正大口品尝着苹果派。一旁的杰瑞羡慕地盯着,心中渴望能分得一小块。于是,他走到屋外,按响了门铃。汤姆开门后,杰瑞迅速绕到房屋后方,溜进了厨房。他悄无声息地拿走了汤姆的苹果派。带着派,杰瑞朝着自己的鼠洞飞奔而去,汤姆则紧追不舍。就在汤姆即将抓住杰瑞之际,杰瑞敏捷地躲进了鼠洞,而汤姆却一头撞上了墙壁。

在一场海底探险中,杰瑞偶然发现了一张藏宝图,他一边巧妙地躲避着汤姆的追赶,一边穿梭于珊瑚礁与海带丛生的海域kaiyun全站网页版登录,寻求宝藏的踪迹。最终,杰瑞在一艘沉没的船只中找到了宝藏,兴奋地欢呼雀跃。然而,汤姆的追捕却让他遭遇了一条饥肠辘辘的鲨鱼,陷入了困境。

汤姆与杰瑞一同游览了熙熙攘攘的嘉年华,汤姆迫不及待地挑战了投掷游戏,却屡试不中,引得杰瑞忍不住讥讽。心情低落的汤姆意志坚定,尽管竭尽全力,却未能将罐子击倒。而杰瑞则信心满满地走上前,轻而易举地击倒了罐子kaiyun全站app登录入口,并赢得了那座熠熠生辉的金奖杯。杰瑞兴高采烈地庆祝自己的胜利,汤姆却感到了惊讶、嫉妒和愤怒,当他们一同走出嘉年华——杰瑞自豪地紧握着他的奖品,而汤姆则不悦地慢步走在其后。

TTT层:视频生成的新希望

TTT层的关键理念,在于对RNN层中隐藏状态的更新机制进行了革新。

TTT层的隐藏状态已不再仅仅是矩阵形式,它已经演变为神经网络结构,更具体地说,是由两层多层感知器(MLP)构成的。

其隐藏单元数量是线性注意力变体中线性隐藏状态的两倍,因而其表达能力显著提升。

猫和老鼠专题游戏_ AI猫和老鼠视频生成 _

TTT层运用自监督学习技术对历史上下文进行压缩处理,并将这些信息转化为隐藏状态的权重。

在这个过程中,有个很重要的更新规则,就是对自监督损失

进行梯度下降:

其中

是学习率。

输出标记z_t是模型根据更新后的权重对x_t的预测,也就是

 AI猫和老鼠视频生成 __猫和老鼠专题游戏

为了提升学习的难度,研究者们首先会将x_t转化为受损的输入数据。

然后优化损失函数

这与去噪自编码器有相似之处,都需要深入探索x_t各个维度间的相互联系,以便能够从碎片化的数据中重新构建出完整的信息。

在实际操作中,TTT层涉及若干核心设计环节。在执行自监督学习任务时,我们不再进行任务的手动设定,转而运用了端到端的训练策略。

TTT层与RNN层以及自注意力层的接口设计一致,这使得它能够轻松地被整合进多种不同的网络结构之中。

基于TTT层的视频生成方法

接下来看看研究人员是如何用TTT层生成视频的。

他们选取了预训练的CogVideo-X 5B模型作为基础,随后在模型中嵌入TTT层,并对其进行了细致的调整。

架构调整

在架构设计上,有几个很巧妙的地方,首先是门控机制。

TTT层经过随机初始化,若直接将其融入预训练网络,将导致模型预测能力显著降低。

研究人员用一个可学习向量

来控制TTT层的输出,公式为

将初始值设定为0.1,既保证了在微调初期TTT层能够有效运作,又避免了对其原有模型造成过大的干扰。

其次是双向机制。

因为扩散模型缺乏因果性,为了使TTT层能够更高效地运作,研究人员采取了以下措施:

TTT层能够实现输入序列的逆序扫描,即便如此,输出的结果依旧保持时间顺序的排列。

他们对整个架构的序列构建模块进行了调整,新增了TTT层以及门控机制。

猫和老鼠专题游戏_ AI猫和老鼠视频生成 _

让模型更好地处理长视频。

 AI猫和老鼠视频生成 _猫和老鼠专题游戏_

整体流程优化

研究人员对视频进行了细致的划分,将其分解为若干个场景,而每个场景又进一步细分为一个或数个时长为3秒钟的片段。

采取这种做法的原因在于,CogVideo-X先前版本的最大视频生成时长仅为3秒钟,同时,《猫和老鼠》中的多数画面持续时间均不少于3秒,以3秒的片段来构建数据集操作起来更为简便。

文本提示可采取以下三种形式:一是以5至8句话简明扼要地概述故事情节;二是以约20句话详尽描述,每句对应一个3秒的片段;三是采用分镜脚本,每个3秒的片段由3至5句话构成,并融入丰富细节。

在具体操作过程中,文本分词器接收到的数据格式为3,而不同格式间的转换任务则由Claude 3.7 Sonnet系统负责执行。

从文本到序列的转换过程也很有意思。

CogVideo-X能够将文本标注与含噪视频标注相融合,构建出输入序列。在生成长视频过程中,系统会针对每个3秒的视频片段进行独立处理,最终将这些处理过的片段串联起来。

在处理信息时,自注意力层仅在每个3秒的片段中进行局部操作,与此同时,TTT层则对整个输入序列进行全面的处理。

既控制了计算成本,又能充分发挥TTT层处理长上下文的优势。

数据集构建

研究者们利用1940年至1948年间播出的《猫和老鼠》系列中的81集内容,构建了一个数据集。

他们首先对原始视频进行了超分辨率处理,以此提高了画质质量,并将所有视频的分辨率统一调整到了720像素乘以480像素。

随后,要求注释人员将剧集内容细分为不同场景,从中选取时长为三秒的片段,并为这些片段各自撰写详尽的剧本。

为了对各种时长视频进行训练,他们不仅将多个3秒片段拼接,还制作出了时长分别为9秒、18秒、30秒以及63秒的视频。

并行化与效率提升

为了提高训练效率,研究人员对非因果序列进行了并行化处理。

他们每次更新b个标记的W(这里b=64),公式是

然后用W_ib生成小批量i中所有时间步的输出标记。

此举不仅确保了并行计算的顺利实施,而且通过梯度平均化手段有效降低了方差,从而使训练阶段变得更加稳固。

鉴于TTT-MLP的隐藏状态规模庞大,无法在单一SM的SMEM中容纳,研究者们采纳了片上张量并行技术进行解决方案的探索。

将W^(1)与W^(2)分散存储于多个SM之中,恰似将一项繁重的工作细分为若干部分,使得众多助手协同完成。

 AI猫和老鼠视频生成 _猫和老鼠专题游戏_

研究人员依托NVIDIA Hopper GPU架构中的DSMEM特性,实现了SM间的全面规约操作;同时,他们运用了多阶段流水线以及异步预取等先进技术,有效缩短了数据传输所需时间,从而显著提升了整体效率。

一分钟视频效果评估

以如下故事概要作为视频生成词。

汤姆正坐在厨房的桌子旁,满脸喜悦地品尝着苹果派。一旁的杰瑞眼中充满了向往,羡慕地望着,心中渴望能分得一口。他走到屋前,按响了门铃。汤姆开门之际,杰瑞却绕至后门,悄无声息地溜进了厨房。他偷走了汤姆的苹果派,迅速地朝着自己的鼠洞跑去。汤姆见状,急忙追赶。就在他即将捉住杰瑞时,杰瑞敏捷地钻进了鼠洞,而汤姆却一头撞上了墙壁。

视频帧中进行了TTT-MLP、Gated DeltaNet以及滑动窗口注意力等方法的对比,这些方法在人工评估中均展现出优异的表现,被视为领先的基础模型。

TTT-MLP在场景转换时注重细节的保留,从而提升了场景的一致性;同时,它对复杂动作的精确描绘,使得运动效果显得更加流畅自然。

 AI猫和老鼠视频生成 __猫和老鼠专题游戏

作为对比:

TTT-MLP能够在场景转换及不同视角间维持时间上的连贯性,并实现动作的流畅与高保真度生成。

滑动窗口的注意力机制对厨房的布局进行了调整,对房屋的色调进行了更换,同时还将杰里偷取派饼的故事情节进行了模仿。

DeltaNet的门控功能:在Tom的不同视角下,时间上的连贯性有所欠缺;然而,在随后的画面中,厨房的场景保持了稳定。

Mamba2对汤姆的形象进行了扭曲处理,在他咆哮着追赶杰瑞的过程中,视频画面中厨房的背景环境却始终保持着一致性。

_ AI猫和老鼠视频生成 _猫和老鼠专题游戏

经过对一分钟的短视频进行评估,我们发现TTT-MLP的平均得分比排名第二的方法高出34个Elo分,具体数值为1033对999。

在评估的各项指标中,场景的一致性评分提升了38分,而动作的流畅度则增加了39分。

对比之下,Chatbot Arena中GPT-4的Elo分值比GPT-3.5 Turbo高出46分,而GPT-4o则比GPT-4Turbo多出29分。

猫和老鼠专题游戏_ AI猫和老鼠视频生成 _

在处理时长为63秒的视频时,全注意力机制所需的推理时长是局部注意力机制的11倍,同时,其训练时长更是达到了局部注意力机制的12倍。

TTT-MLP所需的计算量分别是全注意力模型的2.5倍和3.8倍——尽管这一比例相较于全注意力模型已经有了显著提升,但与Gated DeltaNet相比,其在推理和训练阶段所需的计算量仅高出局部注意力模型1.8倍。

评估维度与评估方法

在MovieGen提出的六个评价标准中,我们挑选了其中与研究领域密切相关的四个,作为TTT效果评估的依据。

文本连贯性(内容一致性):需确保生成的内容与所提供的提示或要求保持一致,确保生成的文本与输入提示的匹配度。

动作的自然流畅性,包括身体动作的顺畅、面部表情的真实,以及对物理规律的尊重。若动作显得不自然或异常,则会相应扣分。

美学价值方面,内容富有趣味且极具吸引力,灯光、色彩搭配巧妙,镜头运用亦颇具匠心。

时间上的连贯性:确保场景内部各元素以及不同场景之间的时间发展保持一致。

本评估依据盲测过程中的相互对比,分析出每一对样本之间的偏好差异。

直接对较长的视频内容进行评价或是集中对众多视频进行排序,这两者都面临着极大的困难。

具体而言,评估人员将随机抽取前述四个评估标准中的任意一个,同时还会获得一对内容情节一致的影片,接着他们需指出在所选取的评估标准下,哪一部影片更为出色。

为了构建一个用于评估的视频资料库,研究人员首先运用Claude 3.7 Sonnet技术,对100个故事情节进行了采样处理开yun体育app官网网页登录入口,接着,针对每一个故事情节,他们采用不同的方法制作了一个视频。

生成视频的方法对评估者始终是未知的。

在Chatbot Arena中,我们采用Elo评分体系对参与者进行偏好对比结果的整合。

TTT-MLP模型相较于次优方案,平均提升了34个Elo分值(详情可参考前述表格)。

 AI猫和老鼠视频生成 __猫和老鼠专题游戏

当然,TTT-MLP生成视频中也会有「瑕疵」。

时间上的连贯性:物体在3秒的片段交界处可能会出现形态变化,这种现象可能是由于扩散模型在各个片段之间选取了不同的模式进行采样。

动作流畅性(Motion fluidity)方面,物体偶尔会出现不顺畅的漂浮现象,这通常是由于重力作用未能准确模拟所致。

美学方面:除非有具体指示,光线的变化与动作往往难以做到完全同步。摄像机的复杂操作,比如视差效果,有时描述上存在误差。

猫和老鼠专题游戏_ AI猫和老鼠视频生成 _

_猫和老鼠专题游戏_ AI猫和老鼠视频生成

_ AI猫和老鼠视频生成 _猫和老鼠专题游戏

左右滑动查看

华人共同一作

猫和老鼠专题游戏__ AI猫和老鼠视频生成

本篇文章共有四位作者共同署名,其中一位是华裔学者徐佳瑞,他目前是加州大学圣地亚哥分校的一名五年级博士生。

曾于香港科技大学取得计算机科学领域的本科学位,目前担任FAIR实验室的研究实习生一职。

曾于Google Research、NVIDIA Research、Microsoft Research以及OpenMMLab进行过实习经历。

 AI猫和老鼠视频生成 __猫和老鼠专题游戏

参考资料:

该链接指向的内容禁止对特定内容进行修改,确保了信息的完整性和准确性。

禁止访问该链接,确保视频内容的版权得到尊重,维护网络环境的健康发展。

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。