斯坦福团队:如何优化视频生成连贯性?
这项由斯坦福大学的Lvmin Zhang和Maneesh Agrawala共同完成的开创性研究,发表于2025年4月21日的arXiv预印本平台(论文编号:arXiv:2504.12626v2)。有兴趣深入了解的读者可以通过该编号在arXiv网站上访问完整论文。
在人工智能生成视频的世界里,有一个听起来很矛盾的难题:如何让AI既能记住足够多的画面内容,又不会在生成视频时越来越"跑偏"?这就像要求一个人在讲很长的故事时,既要记住故事开头发生的所有细节,又不能在讲述过程中偏离主线情节。斯坦福大学的这项研究就是要解决这个看似无解的矛盾。
研究团队发现,当前的视频生成模型面临着两个相互制约的核心问题。第一个问题叫做"遗忘",就像人的记忆力有限一样,AI模型在生成长视频时会逐渐忘记最开始的画面内容,导致前后不一致。第二个问题叫做"漂移",指的是AI在一帧一帧生成视频时,小错误会不断累积放大,就像传话游戏一样,最后生成的视频质量越来越差。
这两个问题的矛盾之处在于:如果你想让AI记住更多内容来解决遗忘问题,就需要增强它的记忆机制,但这样做反而会让错误传播得更快,加剧漂移问题。反过来,如果你想减少漂移,就需要削弱AI对历史信息的依赖,但这又会让遗忘问题变得更严重。
一、巧妙的记忆压缩术:FramePack如何让AI记住更多
研究团队提出的FramePack方法,就像是给AI配备了一个超级智能的记忆管理系统。这个系统的核心思想是:不是所有的历史画面都同等重要,应该根据重要性来分配记忆空间。
具体来说,FramePack就像一个聪明的图书管理员。当面对大量书籍时,管理员会把最重要、最常用的书放在最容易拿到的地方,保持完整的详细信息。而那些不太重要的书,则可以压缩存储,比如只保留摘要或目录。同样地,FramePack会把最近的、最重要的视频帧保持高清晰度,而把较早的、相对不重要的帧进行压缩处理。
这种压缩不是简单的删除,而是采用了一种叫做"几何级数压缩"的巧妙方法。研究团队发现,可以通过调整AI模型处理图像时的"补丁核大小"来实现这种压缩。通俗地说,就像调整相机镜头的焦距一样,对于重要的画面用高倍镜头拍摄细节,对于不太重要的画面用广角镜头拍摄概览。
更令人惊喜的是,通过这种压缩方法,FramePack能够处理任意长度的视频,而计算量却能保持在一个固定的范围内。这就像有了一个神奇的背包,无论你装多少东西,背包的重量都保持不变。具体的数学公式显示,当视频长度趋向无穷时,总的计算复杂度会收敛到一个固定值,这为处理超长视频提供了可能。
研究团队还提供了多种FramePack的变体配置。有的采用典型的几何级数压缩,压缩比例依次为1、1/2、1/4、1/8、1/16等等。有的采用重复级别的压缩,比如把压缩比例设置为1、1/4、1/4、1/4、1/16、1/16、1/16,这样可以让相同压缩级别的帧组合在一起处理。还有的在时间维度上应用压缩,把多个连续帧打包成一个张量来处理。
对于不同应用场景,FramePack还能调整重要性判断标准。比如在图像到视频的生成任务中,用户提供的初始图像往往最重要,应该分配最大的内存空间。而在某些情况下,视频的开头和结尾都很重要,中间部分可以适当压缩。
二、反向思维的防漂移策略:从终点往起点生成
解决了记忆问题后,研究团队又提出了一系列创新的采样方法来对付漂移问题。传统的视频生成就像写小说一样,从第一章开始,一章一章往后写。但这种方法的问题是,如果前面某一章出了错,后面的所有章节都会受到影响。
FramePack提出的反漂移采样方法就像是电影制作中的"非线性剪辑"。制片人不一定按照故事的时间顺序来拍摄,而是先拍一些关键场景,然后再填补中间的内容。这样做的好处是,关键场景一旦确定,就为整个故事提供了稳定的框架。
具体来说,研究团队设计了三种不同的采样策略。第一种是传统的"香草采样",就是按时间顺序一帧一帧生成。第二种是"反漂移采样",首先同时生成视频的开头和结尾关键帧,然后在后续迭代中填补中间的空白。第三种是"反向反漂移采样",这是一种特别巧妙的方法,特别适用于图像到视频的生成任务。
反向反漂移采样的工作原理是:把用户提供的图像当作一个高质量的"锚点",然后从这个锚点开始,反向生成视频序列。这就像从山顶开始往下走,每一步都朝着已知的高质量目标前进,而不是盲目地向前探索。这种方法确保生成的每一帧都在努力接近已知的高质量画面,大大减少了累积误差。
为了支持这些非线性的采样策略,研究团队还对模型的位置编码系统进行了特殊处理。传统的位置编码假设帧序列是连续的,但在反漂移采样中,需要处理非连续的帧索引。团队通过"跳跃相位"技术解决了这个问题,允许模型处理任意时间位置的帧组合。
三、训练优化的意外收获:更平衡的扩散调度
在实际训练过程中,研究团队发现了一个意想不到的好处。由于FramePack在每个推理步骤中生成的张量尺寸比传统全视频生成方法要小,这使得模型可以使用更平衡的扩散调度策略。
这里需要解释一下什么是扩散调度。在AI生成图像或视频的过程中,模型需要逐步从随机噪声中"雕刻"出有意义的内容。这个过程就像雕塑家从一块粗糙的石头开始,逐步雕刻出精美的雕像。扩散调度决定了每一步应该去除多少"噪声",雕刻多少细节。
传统的视频生成由于需要处理巨大的数据量,往往被迫使用比较极端的调度策略,就像用大锤子粗暴地敲击石头。而FramePack由于数据量更小,可以使用更精细、更平衡的调度策略,就像用精细的凿子慢慢雕琢细节。
研究团队发现,这种更平衡的调度策略实际上能带来更好的视觉质量。这是因为较少的极端"流移位时间步"让模型有更多机会去处理细节和纹理,而不是急于从粗糙的噪声中提取基本形状。
四、实验设计与评估体系
为了验证FramePack的效果,研究团队设计了一套全面的实验评估体系。他们使用了两个主流的视频生成基础模型:Wan2.1和改进版的HunyuanVideo。这两个模型都支持文本到视频和图像到视频的生成任务,为FramePack提供了广泛的测试平台。
实验数据集采用了与LTXVideo相似的收集流程,包含多种分辨率和质量级别的视频。所有数据都经过质量测量和运动评分筛选,确保数据分布的高质量和多样性。团队还采用了宽高比分桶技术,支持多分辨率训练,最小单位尺寸为32像素。
评估指标方面,研究团队设计了一个多维度的评估体系。全局指标包括清晰度(使用MUSIQ图像质量预测器)、美学质量(使用LAION美学预测器)、运动平滑度(使用修改版的视频帧插值模型)、动态程度(使用RAFT光流估计)、语义一致性(使用ViCLIP视频文本评分)、解剖正确性(使用VBench预训练的ViT模型识别手、脸、身体等)和身份一致性(使用ArcFace面部特征相似性)。
特别值得一提的是,团队还设计了专门的漂移测量方法。他们提出了"起始-结束对比度"指标,通过比较视频前15%和后15%部分在各个质量指标上的差异来量化漂移程度。这个指标的巧妙之处在于,它不依赖于视频的生成方向,无论是正向还是反向生成都能准确评估。
人工评估方面,团队收集了A/B测试的人类偏好数据。每个架构变体生成100个结果,A/B测试在各种变体之间随机分布,确保每种变体都覆盖至少100次评估。最终报告ELO-K32评分和相对排名,这是一种来自国际象棋比赛的评分系统,能够客观地反映不同方法之间的相对优劣。
五、实验结果的全面分析
实验结果令人振奋。在包含30种不同FramePack配置的消融研究中,反向反漂移采样方法在7个评估指标中的5个都取得了最佳结果,而其他采样方法最多只在单个指标上表现最佳。更重要的是,反向反漂移采样在所有漂移相关指标上都达到了最优性能,证明了这种方法在解决累积误差问题上的有效性。
人工评估也支持了这些定量结果。实验发现,每次生成9帧的配置比生成1帧或4帧的配置获得了更好的人类偏好评分,这表明适中的生成块大小能够在质量和效率之间找到最佳平衡点。
令人惊讶的是,虽然传统的香草采样在动态评分上取得了最高分,但研究团队认为这实际上是漂移效应造成的假象,而不是真正的质量优势。这是因为漂移会导致视频内容发生不自然的变化,被动态评分系统误认为是"高动态性"。
在与其他相关架构的比较实验中,FramePack表现出了明显的优势。与简单重复图像到视频生成、锚点帧方法(类似StreamingT2V)、因果注意力(类似CausVid)、噪声历史方法(类似DiffusionForcing)和历史引导方法(类似HistoryGuidance)相比,FramePack在3个全局指标上达到最佳,而其他方法最多只在1-2个指标上表现最好。更重要的是,FramePack在所有漂移相关指标上都取得了最佳结果,这与人工评估的ELO评分结果一致。
训练效率方面的结果也非常令人鼓舞。使用13B参数的HunyuanVideo模型在480p分辨率下,FramePack能在单个8×A100-80G节点上达到64的批处理大小,这个数字甚至可以与12B Flux等图像扩散模型相媲美。这使得FramePack适合个人或实验室规模的训练和实验,大大降低了研究门槛。
六、技术实现的细节考量
FramePack的成功不仅在于其核心算法,还在于许多精心设计的技术细节。比如在处理不同压缩率的输入投影时,研究团队发现使用独立参数能够显著提升学习稳定性。他们为最常用的输入压缩核设置了独立的神经网络层,包括(2,4,4)、(4,8,8)和(8,16,16)的核尺寸。对于更高的压缩率,则先进行下采样再使用最大的核进行处理。
在训练这些新的输入投影层时,团队采用了权重插值初始化的策略,从预训练的补丁化投影权重开始,然后逐步调整到目标配置。这种渐进式的训练方法避免了从零开始训练可能遇到的收敛困难。
对于极长视频的处理,FramePack提供了三种尾部处理选项。第一种是简单删除尾部帧,第二种是允许每个尾部帧增加单个潜在像素的上下文长度,第三种是对所有尾部帧应用全局平均池化并用最大核处理。实验表明,这三种选项在视觉效果上差异相对较小,为实际应用提供了灵活性。
RoPE(旋转位置嵌入)对齐是另一个重要的技术细节。当使用不同压缩核编码输入时,不同的上下文长度需要RoPE对齐。团队采用了直接下采样RoPE相位的方法,使用平均池化来匹配压缩核的尺寸,确保位置信息的一致性。
七、实用价值与应用前景
FramePack的实用价值远远超出了学术研究的范畴。首先,它显著降低了长视频生成的计算门槛,使得更多研究团队和创作者能够参与到视频AI的开发和应用中来。传统的长视频生成往往需要昂贵的大型计算集群,而FramePack让个人实验室级别的设备就能处理较长的视频生成任务。
在创意产业中,FramePack为内容创作者提供了新的可能性。电影制作人可以使用这项技术快速生成概念视频,广告公司可以制作个性化的营销内容,教育工作者可以创建生动的教学视频。特别是反向反漂移采样方法,让用户可以从一张静态图片开始,生成高质量的动态视频内容。
技术开发者也将从FramePack中受益。这项技术可以轻松集成到现有的视频生成模型中,不需要从头开始训练。研究团队已经证明了它与Wan和HunyuanVideo等主流模型的兼容性,这意味着开发者可以快速将这些改进应用到自己的产品中。
在商业应用层面,FramePack的固定计算复杂度特性使得云服务提供商可以更好地预测和管理计算资源。用户可以生成任意长度的视频,而服务商的计算成本却保持可控,这为按需视频生成服务的商业化提供了可能。
八、当前限制与未来发展方向
尽管FramePack取得了显著成果,但研究团队也诚实地指出了当前技术的一些限制。首先,虽然FramePack在理论上可以处理无限长的视频,但在实际应用中,当视频长度变得极其庞大时,尾部帧可能会被压缩到低于最小单元尺寸,这时需要特殊的处理策略。
其次,当前的重要性评估主要基于时间接近性,这种简单的策略虽然有效,但可能不适用于所有类型的视频内容。比如在一些艺术性视频中,开头和结尾可能同样重要,或者某些中间帧包含关键信息,需要更智能的重要性评估算法。
压缩策略的选择也存在优化空间。虽然研究团队提供了多种压缩配置,但最优配置可能因任务而异。自动选择最佳压缩策略的算法将是一个有价值的研究方向。
在计算效率方面,虽然FramePack已经大大改善了长视频生成的计算复杂度,但对于移动设备或边缘计算场景,仍然需要进一步的优化。结合模型蒸馏、量化等技术,可能会带来更轻量级的实现方案。
未来的研究方向还包括将FramePack扩展到其他模态。比如,类似的思想是否可以应用到音频生成、3D模型生成或者多模态内容生成中?这些都是值得探索的方向。
另一个有趣的方向是结合用户反馈的自适应压缩。系统可以根据用户对生成内容的评价,动态调整不同帧的重要性权重,实现个性化的视频生成体验。
九、对AI视频生成领域的深远影响
FramePack的提出不仅解决了一个技术问题,更重要的是改变了人们对长序列生成任务的思考方式。传统观念认为,处理长序列必然带来计算复杂度的急剧增长,而FramePack证明了通过智能的信息管理策略,可以实现常数级别的计算复杂度。
这种思想对整个AI生成领域都有启发意义。在自然语言处理中,生成长文本时也面临类似的问题。在语音合成中,生成长音频也需要处理类似的时序依赖关系。FramePack提供的框架思想可能会启发这些领域的研究者开发类似的解决方案。
从更宏观的角度来看,FramePack体现了AI系统设计中一个重要原则:模仿人类认知机制。人类在处理长时间序列信息时,自然会对不同时间点的信息赋予不同的重要性权重,对重要信息保持高分辨率记忆,对次要信息进行压缩存储。FramePack的成功表明,将这种认知机制引入AI系统设计是一个有效的策略。
反向采样策略的成功也挑战了传统的序列生成范式。长期以来,人们习惯于按照时间顺序生成序列,但FramePack证明了非线性、双向的生成策略可能更有效。这种思想可能会影响未来AI系统的设计哲学,从单纯的因果模型转向更复杂但更智能的生成策略。
十、技术普及与开源贡献
研究团队在论文中详细描述了FramePack的实现细节,并提供了完整的评估方法和实验配置。这种开放的研究态度极大地促进了技术的快速普及和进一步发展。许多技术细节,比如压缩核尺寸的选择、RoPE对齐的具体实现方法、训练超参数的设置等,都被详细记录,为其他研究者提供了宝贵的参考。
特别值得称赞的是,研究团队设计的命名约定系统让FramePack的各种配置变得容易理解和交流。比如"td_f16k4f4k2f1k1_g9"这样的字符串能够完整描述一个具体的FramePack配置,包括尾部处理方式、各层帧数和压缩核、生成帧数等。这种标准化的描述方法有助于研究社区的协作和知识共享。
从技术转移的角度来看,FramePack的设计考虑了与现有模型的兼容性。研究团队证明了现有的预训练视频扩散模型可以通过微调适配FramePack,而不需要从头开始训练。这大大降低了技术采用的门槛,使得工业界可以快速将这些研究成果转化为实际产品。
说到底,斯坦福大学的这项研究为AI视频生成领域带来了一次重要的技术突破。FramePack不仅优雅地解决了长期困扰研究者的遗忘-漂移矛盾,还通过巧妙的工程设计实现了理论上的优美与实际应用的实用性的完美结合。
归根结底,这项研究的价值不仅在于提出了一个有效的技术方案,更在于它展示了一种系统性思考复杂技术问题的方法论。通过将认知科学的洞察与深度学习的技术相结合,通过将理论分析与工程实践相结合,研究团队创造了一个既有理论深度又有实用价值的解决方案。
对于普通用户来说,FramePack意味着未来我们将能够使用更少的计算资源生成更长、更一致、质量更高的AI视频。对于开发者来说,这项技术提供了一个可以立即集成的解决方案。对于研究者来说,FramePack开启了一个新的研究方向,让我们重新思考如何设计更智能的序列生成系统。
随着这项技术的进一步发展和普及,我们有理由相信,AI视频生成将变得更加普及和实用,为创意产业、教育、娱乐等多个领域带来革命性的变化。而这一切,都源于研究团队对一个看似简单却极其深刻的问题的执着探索:如何让AI既记得住,又不跑偏。
有兴趣了解更多技术细节的读者,可以通过arXiv:2504.12626v2访问这篇完整的研究论文,其中包含了更详细的数学推导、实验数据和技术实现说明。
Q&A
Q1:FramePack是什么?它解决了什么问题? A:FramePack是斯坦福大学开发的一种AI视频生成技术,主要解决了AI在生成长视频时面临的两个矛盾问题:一是"遗忘"(AI逐渐忘记早期画面内容),二是"漂移"(生成质量逐渐下降)。FramePack通过智能的记忆压缩和反向采样策略,让AI既能记住更多历史信息,又能避免错误累积。
Q2:FramePack的核心创新是什么? A:核心创新有两个:一是"几何级数压缩"策略,根据帧的重要性分配不同的记忆空间,让计算复杂度保持固定;二是"反向反漂移采样"方法,从已知的高质量帧开始反向生成,避免传统顺序生成中的误差累积问题。
Q3:这项技术有什么实际应用价值? A:FramePack大大降低了长视频生成的计算门槛,让个人实验室级别的设备就能处理较长视频。在创意产业中,可以用于电影概念视频制作、个性化广告、教学视频等。同时,它可以轻松集成到现有视频生成模型中,为商业化应用提供了可能性。
B 端设计师实测!3 款 AI 工具生成文件压缩小工具,不出意料没完全成功
运营一句“图太大加载慢”,B 端设计师把三款当红 AI 工具拉来“五分钟造压缩神器”:Minimax 能跑但要氪金,扣子静态满分却找不到下载按钮,豆包颜值最高却直接“换图”出 bug。实测告诉你:AI 再强,也抵不过积分和 bug 的双重暴击。

事情的起因,其实是运营小姐姐的一句吐槽:,
“哥,这图1MB多,网页加载跟蜗牛似的,网页刷新效率太低,能不能给压一压?”
我一拍脑门:AI现在这么能干,现在这么溜,一键开发一个工具的智能体应该也有,直接搞个专门自己用的。于是找来了三个刷到的AI小能手:
MinimaxAgent(这个是在别的博主文章中推荐的,说是啥都能干的六边形战士)扣子·网站开发专家(听起来就很专业的亚子)豆包·AI编程(字节家的小可爱)注意了注意了,没有运营小姐姐,都是抠脚大汉。。。
我想了下提示词:
文件在线压缩工具,文件包括图片(格式包括jpg、jpeg、png、webp、gif)、PDF等等,压缩质量用户可以自行调控
剩下的都依靠 AI帮我完善
某minimax
然后就开始刷手机等结果。大概5分钟吧,它啪甩给我一个技术方案,提供了一个功能计划、执行步骤,以及最终成果物。大体上在我看来是没问题可接受的,所以认可继续了

等了大概几分钟,给出了这个任务拆分,功能分析等等。第一步对技术方案可行性研究,提供了一个图片压缩方案和PDF压缩方案,第二步就是进行编程代码研究生成。



这几分钟内生成的代码文件,上图右边所示,看不懂但觉得很厉害。
下图是生成的网页初步测试下来,可以压缩,问题是有自带水印和清晰度虚化了,随机又补充了需求。“不要水印,清晰度要可调!

又等了几分钟,生成网页如下,加上了两个标记,还是贴心的,用户体验这块也兼顾到了,是我没想到的。

测试的结果,minimax,没有补充多个需求,上传、压缩质量、压缩目标、尺寸选择、下载都是可以正常使用的。
还算是比较认可的,有个需求没注意到,是尺寸大小问题,但已经足够满足我需求了。

文件图片压缩文件成功后,又接着加上“视频压缩”,结果发现积分不够了,继续进行就要氪金了……好吧,暂时先这样。
某扣-网站开发专家
到某扣时候,提示词没变“文件在线压缩工具,文件包括图片(格式包括jpg、jpeg、png、webp、gif)、PDF等等,压缩质量用户可以自行调控”,生成的速度贼快,可以上传,可以“下载”就是找不到下载的文件在哪里

然后加了一句提示,还是没有反应,心想可能提示词没提问到位,又写了一个,并且又补充了一个

提供了文件保存路径(笑死我了,程序它是死的,按理说它提供了没问题),还是不对,然后一想,点击下载有反馈,但找不到文件,是不是浏览器兼容的问题,所以又加了一句

尽管加了这么个标签,实际上问题没有解决。到这一步,我不知道该如何进行下去了,卒。
某豆- Ai编程
到了某豆,提示词改了下“文件在线压缩工具,文件包括图片(格式包括jpg、jpeg、png、webp、gif)、PDF等等,压缩文件的尺寸可进行选择,图片清晰度可供选择,提供下载后的找文件的入口”
生成速度很快,给了个漂漂亮亮的页面,上传设置也很丰富,更加完善的静态页面,网站的完成度挺高,上传文件的一些设置也挺多,



压缩后提供的下载文件和上传文件毫无关系,完全不是同一张图…而是直接生成出来的图片,能下载

我弱弱地反馈:“这是个bug吧?,请修改”
然后……就没有然后了。。于是这个也是放弃了。
折腾一圈,使用三个工具:
某Minimax 最靠谱,但想加功能得氪金(积分制,肉疼)。
某扣 适合静态展示,动真格的容易掉链子了。
某豆 页面最漂亮,但bug挺让人抓狂的。
可能有朋友问了,可以试试trae啊,我试了,在我写到这位置的时候,它在帮我搭建环境,但我看不懂,且红框内的提示,需要卸载 Homebrew。不懂所以不碰,另外trae是专业开发人员使用的工具,所以并不适合我这种小白的。

最后说一句,AI再强,也架不住我积分不够啊!搞不起
本文由人人都是产品经理作者【Ychen】,微信公众号:【B端设计啊呜】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
相关问答
拍摄的视频如何剪切和压缩?-懂得
打开格式工厂,点击视频,可以看到所有转到XXX格式,比如RMVB、WMV等,出现一个对话框,然后添加文件,可以点输出配置进行质量和大小的配置,也可以点选项...
拍摄的视频如何剪切和压缩?-USeNPJlWK10的回答-懂得
用batchrealproducer压缩成rmvb格式可以小很多不过也要看你的视频原来是什么格式如果是MP4的话就压缩不了了有的视频格式压缩完质量很不好就是了...
如何压缩视频,在抖音上?-ZOL问答
现在品牌越来越喜欢在抖音上发起各种话题挑战,用户以跟拍视频的形式参加话题每个视频的发布都会给品牌带来或多或少的曝光,往往一个品牌也会因此而在抖音再次火...
怎么把视频缩小到指定尺寸?
1.首先我们打开剪映2.点击开始创作3.选择一段视频点击添加到项目4.点击剪辑5.点击编辑6.点击裁剪7.拉动画框大小即可调整视频尺寸1.首先我们打...
剪映怎么缩小多个视频大小?
剪映缩小多个视频大小。第一步,缩小效果,打开剪映,点击开始创作,导入背景素材,点击添加,点击画中画,新增画中画,时间五秒钟,再视频最开始的地方添加一...剪...
花瓣剪视频大小如何调整?
点击打开“花瓣剪辑”app,然后导入要裁剪的原始视频。2/4点击工具栏中的“裁剪”。3/4在裁剪选项中,点击选择要裁剪为的视频尺寸。4/4返回主页面我们...
爱剪辑压缩视频的方法视频太大怎么变小-温达妮和小蘑菇...
需要工具:电脑、爱剪辑软件一、首先找到需要压缩的视频,并将其拖到桌面上方便查找,此时视频大小为66.6M。二、然后打开“爱剪辑”视频编辑软件(没有...
屏幕录像后的视频文件太大,如何压缩-懂得
用TMPGEnc4.0XPress压制一下,输出仍然为avi格式,不过编码选择XviD,这个是视频压制中比较普遍而且常用的视频编解码器,可以保证清晰度的前提下压缩视...
excel表格插入视频怎么缩小?
表格插入视频后调节大小方法如下1、在电脑中打开EXCEL中所要编辑的文件。2、点击表格上方工具栏,在表格中插入所要插入的视频。3、选中视频后,在上方的工具...
怎样调节视频的大小?-ZOL问答
1.使用视频编辑软件:通过剪辑、转场、裁剪等操作来调整视频尺寸和时长。2.使用编码器:使用专业的编码器软件,输入视频源和输出参数,进行编码转换,从而实现视...