谁说拍摄只能局限于“一镜到底”?字节推出LCT创新技术,让AI自由发挥创作出大片电影!

你是不是已经看惯了那些由AI生成的,虽然逼真但总感觉少了点“味道”的短视频?现在,一项名为长上下文调整 (Long Context Tuning, LCT) 的创新技术横空出世,它让AI视频生成模型拥有了执导多镜头叙事视频的能力,如同电影和电视剧那样,在不同镜头之间自由切换,构建出更连贯、更引人入胜的故事场景。

image.png

过去,顶尖的AI视频生成模型,比如SoRA,Kling,Gen3,已经能够创造出长达一分钟的逼真单镜头视频。但这与真实世界中,由多个镜头组成的叙事视频(比如电影中的一个场景)的需求之间存在巨大的鸿沟。一个电影场景通常由一系列捕捉同一连贯事件的不同单镜头视频组成。

例如,在电影《泰坦尼克号》中,杰克和露丝在甲板上相遇的经典场景就包含了四个主要的镜头:杰克回头的特写、露丝说话的中景、露丝走向杰克的广角镜头,以及杰克从背后拥抱露丝的特写。生成这样的场景,需要确保视觉外观(如人物特征、背景、光线和色调的一致性)和时间动态(如人物动作的节奏和相机运动的平滑度)在不同镜头之间保持高度的连贯性,从而保证叙事的流畅性。

为了弥合单镜头生成和多镜头叙事之间的差距,研究人员提出了多种方法,但大多存在局限性。一些方法依赖于输入关键的视觉元素(如人物身份和背景)来强制保持跨镜头的视觉一致性,但难以控制光线和色调等更抽象的元素。另一些方法则先生成一组连贯的关键帧,再利用图像到视频(I2V)模型独立合成每个镜头,这又难以保证镜头之间的时间一致性,并且稀疏的关键帧也限制了条件的有效性。

而LCT的出现,正是为了解决这些难题。它就像给预训练的单镜头视频扩散模型安装了一个“超强大脑”,使其能够处理更长的上下文信息,直接从场景级别的视频数据中学习镜头间的连贯性。LCT的核心在于以下几个创新设计:

全注意力机制的扩展:LCT将原本应用于单个镜头的全注意力机制扩展到包含场景内的所有镜头。这意味着模型在生成视频时,能够同时“关注”整个场景的所有视觉和文本信息,从而更好地理解和维护跨镜头的依赖关系。

交错的3D位置嵌入:为了让模型能够区分不同镜头中的token(文本和视频的基本单元),LCT引入了一种交错的3D旋转位置嵌入(RoPE)。这就像给每个镜头和其内部的token都打上了独特的“标签”,使得模型既能识别每个镜头的独立性,又能理解它们在整个场景中的相对位置关系。

异步噪声策略:LCT创新性地为每个镜头应用独立的扩散时间步。这使得在训练过程中,模型能够学习不同镜头之间的动态依赖关系,并更有效地利用跨镜头的信息。例如,当一个镜头的噪声水平较低时,它可以自然地作为视觉信息的丰富来源,指导其他噪声较高的镜头的去噪过程。这种策略也为后续的视觉条件输入和联合生成提供了便利.

实验结果表明,经过LCT调整的单镜头模型在生成连贯的多镜头场景方面表现出色,并展现出一些令人惊喜的新能力。例如,它可以根据给定的角色身份和环境图像进行组合生成,即使模型之前没有接受过此类任务的专门训练。此外,LCT模型还支持自回归的镜头扩展,无论是连续的单镜头延伸还是带有镜头切换的多镜头扩展都可以实现。这项特性对于长视频的创作尤其有用,因为它将长视频生成分解为多个场景片段,方便用户进行交互式修改。

更进一步,研究人员还发现,在LCT之后,具有双向注意力的模型可以进一步微调为上下文因果注意力。这种改进的注意力机制在每个镜头内部仍然保持双向关注,但在镜头之间,信息只能从先前的镜头流向后续镜头。这种单向的信息流使得在自回归生成过程中可以高效地利用KV-cache(一种缓存机制),从而显著降低计算开销。

如图1所示,LCT技术可以直接应用于短片制作,实现场景级的视频生成。更令人兴奋的是,它还催生了交互式多镜头导演、单镜头扩展以及零样本的组合生成等多种新兴能力,尽管模型从未针对这些特定任务进行过训练。如图2展示了一个场景级视频数据的示例,它包含全局提示(描述角色、环境和故事梗概)以及针对每个镜头的具体事件描述。

总而言之,长上下文调整(LCT) 通过扩展单镜头视频扩散模型的上下文窗口,使其能够直接从数据中学习场景级的连贯性,为更实用的视觉内容创作开辟了新的道路。这项技术不仅提升了AI生成视频的叙事能力和连贯性,也为未来的长视频生成和交互式视频编辑提供了新的思路。我们有理由相信,未来的视频创作将因为LCT等技术的进步而变得更加智能化和更具创造力。

项目地址:https://top.aibase.com/tool/zhangshangxiawentiaoyoulct

论文地址:https://arxiv.org/pdf/2503.10589

猜你喜欢

天龙八部少室山副本挑战全攻略及通关技巧全面解析
天龙八部少室山副本挑战全攻略及通关技巧全面解析

在天龙八部这款游戏中,少室山副本是玩家们挑战自我、获取丰厚奖励的重要一环。然而,由于其难度较高,许多玩家在面对这一副本时

曾翔书法的独特魅力:是被误解的“丑陋”艺术,还是审美标准的多样性体现?
曾翔书法的独特魅力:是被误解的“丑陋”艺术,还是审美标准的多样性体现?

书法艺术界近日掀起了一场关于曾翔先生作品的热议,核心议题聚焦于其作品是否“丑”。这一问题远非表面所见般简单,实则触及书法

魔兽世界怀旧服攻略分享:获取致命短枪的高效方法和技巧详解
魔兽世界怀旧服攻略分享:获取致命短枪的高效方法和技巧详解

魔兽世界怀旧服中,致命的短枪是一件备受玩家追捧的装备,其独特的属性和作用使得它在游戏中扮演着重要的角色。为了帮助广大玩家

成都情侣专属免费观看电视剧的应用:颠覆传统观影模式,成为恋爱必备的高科技神器!
成都情侣专属免费观看电视剧的应用:颠覆传统观影模式,成为恋爱必备的高科技神器!

在这个快速发展的数字时代,成都私人情侣免费看电视剧的软件逐渐成为了情侣们的私密宝藏。这款软件的出现,不仅解决了情侣在共同

盛世龙舞,共庆山海!2025全国舞龙盛典将在秦皇岛老龙头华丽开启
盛世龙舞,共庆山海!2025全国舞龙盛典将在秦皇岛老龙头华丽开启

在春意盎然的季节里,一场别开生面的文化盛宴在山海关老龙头景区热烈展开——2025年“二月二·老龙头”全国舞龙大会于3月1

在银色黎明中提升声望是否值得一刷,玩家们该如何看待这一问题
在银色黎明中提升声望是否值得一刷,玩家们该如何看待这一问题

在魔兽世界的怀旧服中,银色黎明声望成为了许多玩家热议的话题。对于新玩家来说,可能会疑惑:银色黎明声望有必要刷吗?而对于老

畅游中国油画新纪元:深入探讨“思想形态”,感受多样化话语的独特魅力
畅游中国油画新纪元:深入探讨“思想形态”,感受多样化话语的独特魅力

在广州美术学院大学城美术馆,一场别开生面的艺术盛宴——“思想的形状:新时代中国油画的话语探索”展览正式拉开帷幕。此次展览

暴风城如何前往奥丹姆传送门的具体位置与指南
暴风城如何前往奥丹姆传送门的具体位置与指南

暴风城奥丹姆传送门是魔兽世界这款大型多人在线角色扮演游戏中一个非常重要的地点。它不仅连接着艾泽拉斯大陆和遥远的奥丹姆地区

《红楼梦》舞剧全新演员阵容发布,贾宝玉与林黛玉等经典角色迎来新面孔!
《红楼梦》舞剧全新演员阵容发布,贾宝玉与林黛玉等经典角色迎来新面孔!

在艺术的璀璨星河中,两大舞蹈力作近期动态频频,吸引了无数观众的目光。昨晚,舞蹈诗剧《只此青绿》在广州迎来了其辉煌的第70

ysl水蜜桃86与88的果香特点与持久性对比:选择哪款香水更符合你的风格和需求?
ysl水蜜桃86与88的果香特点与持久性对比:选择哪款香水更符合你的风格和需求?

ysl水蜜桃86满十八和88区别,似乎是每个爱美的消费者在挑选时的必问问题。你是否在为选择哪一款而犹豫不决?不同于其他香