英伟达华人AI版《猫和老鼠》爆火全网，60秒经典泪目！仅靠Transformer新增一层

频道：游戏专题日期：2025-07-03 05:01:47 浏览：100

经过对基于《猫和老鼠》的动画进行测试，我们发现，与Mamba2等基线相比，TTT生成的视频在Elo评分上高出34分。

借用老黄那句话，未来每一个像素都将是生成的。

AI猫和老鼠视频生成 __猫和老鼠专题游戏

首批1分钟无剪辑AI版「猫和老鼠」

用下面的故事概要，生成「全新的一集」猫和老鼠。

杰瑞在井然有序的厨房中享用着奶酪，心情愉悦，然而汤姆却调皮地夺走了奶酪，逗弄他。怒气冲冲的杰瑞整理好行囊，带着一个小行李箱离开了家。不久，汤姆察觉到杰瑞的缺席，心中感到难过，于是沿着杰瑞留下的足迹追踪至旧金山。在那里，杰瑞无精打采地坐在一条狭窄的小巷中，汤姆找到了他，用一块奶酪作为赔礼，温柔地向他道歉。杰瑞原谅了汤姆，接受了奶酪，两人一起回家，友谊得到了恢复。

纽约的清晨阳光灿烂，汤姆，这只身披蓝灰外衣、肩背公文包的猫咪，踏入了位于世界贸易中心的办公室。然而，在他安顿下来不久，电脑突然间熄了屏——原来，是那只顽皮的棕色老鼠杰瑞，不怀好意地咬断了连接线。随之而来的是一场激烈的追逐战，汤姆在追逐中不慎撞上了墙壁，而杰瑞则趁机逃回了自家的鼠洞。汤姆信心十足地推开了办公室的门，却意外地打断了一场由愤怒的斗牛犬斯派克主持的会议，斯派克怒气冲冲地将他驱逐出门。而在一个温馨的鼠洞中，杰瑞对这突如其来的混乱事件不禁笑出了声。

汤姆坐在厨房的餐桌边，脸上洋溢着愉悦，正大口品尝着苹果派。一旁的杰瑞羡慕地盯着，心中渴望能分得一小块。于是，他走到屋外，按响了门铃。汤姆开门后，杰瑞迅速绕到房屋后方，溜进了厨房。他悄无声息地拿走了汤姆的苹果派。带着派，杰瑞朝着自己的鼠洞飞奔而去，汤姆则紧追不舍。就在汤姆即将抓住杰瑞之际，杰瑞敏捷地躲进了鼠洞，而汤姆却一头撞上了墙壁。

在一场海底探险中，杰瑞偶然发现了一张藏宝图，他一边巧妙地躲避着汤姆的追赶，一边穿梭于珊瑚礁与海带丛生的海域kaiyun全站网页版登录，寻求宝藏的踪迹。最终，杰瑞在一艘沉没的船只中找到了宝藏，兴奋地欢呼雀跃。然而，汤姆的追捕却让他遭遇了一条饥肠辘辘的鲨鱼，陷入了困境。

汤姆与杰瑞一同游览了熙熙攘攘的嘉年华，汤姆迫不及待地挑战了投掷游戏，却屡试不中，引得杰瑞忍不住讥讽。心情低落的汤姆意志坚定，尽管竭尽全力，却未能将罐子击倒。而杰瑞则信心满满地走上前，轻而易举地击倒了罐子kaiyun全站app登录入口，并赢得了那座熠熠生辉的金奖杯。杰瑞兴高采烈地庆祝自己的胜利，汤姆却感到了惊讶、嫉妒和愤怒，当他们一同走出嘉年华——杰瑞自豪地紧握着他的奖品，而汤姆则不悦地慢步走在其后。

TTT层：视频生成的新希望

TTT层的关键理念，在于对RNN层中隐藏状态的更新机制进行了革新。

TTT层的隐藏状态已不再仅仅是矩阵形式，它已经演变为神经网络结构，更具体地说，是由两层多层感知器（MLP）构成的。

其隐藏单元数量是线性注意力变体中线性隐藏状态的两倍，因而其表达能力显著提升。

猫和老鼠专题游戏_ AI猫和老鼠视频生成 _

TTT层运用自监督学习技术对历史上下文进行压缩处理，并将这些信息转化为隐藏状态的权重。

在这个过程中，有个很重要的更新规则，就是对自监督损失

进行梯度下降：

其中

是学习率。

输出标记z_t是模型根据更新后的权重对x_t的预测，也就是

AI猫和老鼠视频生成 __猫和老鼠专题游戏

为了提升学习的难度，研究者们首先会将x_t转化为受损的输入数据。

然后优化损失函数

这与去噪自编码器有相似之处，都需要深入探索x_t各个维度间的相互联系，以便能够从碎片化的数据中重新构建出完整的信息。

在实际操作中，TTT层涉及若干核心设计环节。在执行自监督学习任务时，我们不再进行任务的手动设定，转而运用了端到端的训练策略。

TTT层与RNN层以及自注意力层的接口设计一致，这使得它能够轻松地被整合进多种不同的网络结构之中。

基于TTT层的视频生成方法

接下来看看研究人员是如何用TTT层生成视频的。

他们选取了预训练的CogVideo-X 5B模型作为基础，随后在模型中嵌入TTT层，并对其进行了细致的调整。

架构调整

在架构设计上，有几个很巧妙的地方，首先是门控机制。

TTT层经过随机初始化，若直接将其融入预训练网络，将导致模型预测能力显著降低。

研究人员用一个可学习向量

来控制TTT层的输出，公式为

将初始值设定为0.1，既保证了在微调初期TTT层能够有效运作，又避免了对其原有模型造成过大的干扰。

其次是双向机制。

因为扩散模型缺乏因果性，为了使TTT层能够更高效地运作，研究人员采取了以下措施：

TTT层能够实现输入序列的逆序扫描，即便如此，输出的结果依旧保持时间顺序的排列。

他们对整个架构的序列构建模块进行了调整，新增了TTT层以及门控机制。

猫和老鼠专题游戏_ AI猫和老鼠视频生成 _

让模型更好地处理长视频。

AI猫和老鼠视频生成 _猫和老鼠专题游戏_

整体流程优化

研究人员对视频进行了细致的划分，将其分解为若干个场景，而每个场景又进一步细分为一个或数个时长为3秒钟的片段。

采取这种做法的原因在于，CogVideo-X先前版本的最大视频生成时长仅为3秒钟，同时，《猫和老鼠》中的多数画面持续时间均不少于3秒，以3秒的片段来构建数据集操作起来更为简便。

文本提示可采取以下三种形式：一是以5至8句话简明扼要地概述故事情节；二是以约20句话详尽描述，每句对应一个3秒的片段；三是采用分镜脚本，每个3秒的片段由3至5句话构成，并融入丰富细节。

在具体操作过程中，文本分词器接收到的数据格式为3，而不同格式间的转换任务则由Claude 3.7 Sonnet系统负责执行。

从文本到序列的转换过程也很有意思。

CogVideo-X能够将文本标注与含噪视频标注相融合，构建出输入序列。在生成长视频过程中，系统会针对每个3秒的视频片段进行独立处理，最终将这些处理过的片段串联起来。

在处理信息时，自注意力层仅在每个3秒的片段中进行局部操作，与此同时，TTT层则对整个输入序列进行全面的处理。

既控制了计算成本，又能充分发挥TTT层处理长上下文的优势。

数据集构建

研究者们利用1940年至1948年间播出的《猫和老鼠》系列中的81集内容，构建了一个数据集。

他们首先对原始视频进行了超分辨率处理，以此提高了画质质量，并将所有视频的分辨率统一调整到了720像素乘以480像素。

随后，要求注释人员将剧集内容细分为不同场景，从中选取时长为三秒的片段，并为这些片段各自撰写详尽的剧本。

为了对各种时长视频进行训练，他们不仅将多个3秒片段拼接，还制作出了时长分别为9秒、18秒、30秒以及63秒的视频。

并行化与效率提升

为了提高训练效率，研究人员对非因果序列进行了并行化处理。

他们每次更新b个标记的W（这里b=64），公式是

然后用W_ib生成小批量i中所有时间步的输出标记。

此举不仅确保了并行计算的顺利实施，而且通过梯度平均化手段有效降低了方差，从而使训练阶段变得更加稳固。

鉴于TTT-MLP的隐藏状态规模庞大，无法在单一SM的SMEM中容纳，研究者们采纳了片上张量并行技术进行解决方案的探索。

将W^(1)与W^(2)分散存储于多个SM之中，恰似将一项繁重的工作细分为若干部分，使得众多助手协同完成。

AI猫和老鼠视频生成 _猫和老鼠专题游戏_

研究人员依托NVIDIA Hopper GPU架构中的DSMEM特性，实现了SM间的全面规约操作；同时，他们运用了多阶段流水线以及异步预取等先进技术，有效缩短了数据传输所需时间，从而显著提升了整体效率。

一分钟视频效果评估

以如下故事概要作为视频生成词。

汤姆正坐在厨房的桌子旁，满脸喜悦地品尝着苹果派。一旁的杰瑞眼中充满了向往，羡慕地望着，心中渴望能分得一口。他走到屋前，按响了门铃。汤姆开门之际，杰瑞却绕至后门，悄无声息地溜进了厨房。他偷走了汤姆的苹果派，迅速地朝着自己的鼠洞跑去。汤姆见状，急忙追赶。就在他即将捉住杰瑞时，杰瑞敏捷地钻进了鼠洞，而汤姆却一头撞上了墙壁。

视频帧中进行了TTT-MLP、Gated DeltaNet以及滑动窗口注意力等方法的对比，这些方法在人工评估中均展现出优异的表现，被视为领先的基础模型。

TTT-MLP在场景转换时注重细节的保留，从而提升了场景的一致性；同时，它对复杂动作的精确描绘，使得运动效果显得更加流畅自然。

AI猫和老鼠视频生成 __猫和老鼠专题游戏