
继一年多前发布ChatGPT在全球引发AI(人工智能)狂飙后,全球AI领军企业OpenAI又向业界扔下了一枚新“王炸”——AI文生视频模型Sora,这距离谷歌发布多模态模型Gemini 1.5仅过去了几个小时。
OpenAI在关于Sora的详细技术报告中表示,Sora对自然语言的理解能力很强。OpenAI将其视为能够理解和模拟现实世界的模型的基础,相信其能力是实现AGI(通用人工智能)的重要里程碑。
正如业界专家所说,Sora的影响往小了说是文生视频技术突破了一个数量级,可直接应用于短视频、广告等行业;往大了说,它提供了理解、重建和模拟这个世界的可能性。
如何成为“王炸”?
“震撼,却在意料之中。”在多年从事计算机视觉研究的上海交通大学人工智能研究院副教授王韫博看来,Sora就是用人类已有的“零件”拼装出了一辆性能超高的汽车——从技术角度看,并不新鲜;但从结果来看,效果炸裂。
Sora带给业界最大的启发是DIT模型,即以Transformer为主干的扩散模型。尽管它们已经是非常成熟的技术,但之前很少有人将两者放在一起。
Transformer架构是产生长视频的基础,它之前被广泛用于大语言模型训练。受到训练大语言模型的Token(文本单元)启发,此次OpenAI团队引入了Patch(视觉块嵌入代码)的概念,它能对像素、尺寸等各不相同的视频进行编码,在潜空间里将Patch的时空数据整合在一起进行训练,再解码成为一个高清视频。
Meta首席AI科学家杨立昆称,他的前同事、纽约大学助理教授谢赛宁和他在伯克利的学生、现任OpenAI工程师的William Peebles前年合著的关于DIT的论文,是Sora的基础。戏谑的是,这篇论文曾因“缺乏新颖性”而被计算机视觉顶级学术会议拒收。
被拒收的论文何以成就新“王炸”?王韫博认为,这与OpenAI的工程能力密不可分。在公开发布的技术信息中,OpenAI坦言,Sora使用了大规模训练和超大数据集。谢赛宁推测,整个Sora模型可能有30亿个参数。
距世界模型有多远?
Sora展现的视频生成能力让网友惊呼“逆天”,而专业人士则从模型中看出更多端倪。
“世界模型”“世界模拟器”是Sora的重要标签,毕竟Sora技术报告的标题就是“作为世界模拟器的视觉生成模型”。
王韫博表示,按照“人工智能之父”艾伦·图灵提出的具身智能(指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力)概念,想要理解物理世界的法则,就必须有像人一样的身体与世界交互。但Sora带来了惊喜:据OpenAI科学家提姆·布鲁克斯透露,没通过人类预先设定,Sora就自己通过“观察”大量数据,自然而然地学会了关于3D几何形状和一致性的知识。
而Sora被人诟病最多的不足之处,也在对物理规则的理解上。比如,在展示老奶奶吹蜡烛的视频中,蜡烛并没有随风熄灭;在另一段玻璃杯从空中坠落的视频中,玻璃没有碎,里面的水已经流出来了。对此,OpenAI坦言,目前Sora还难以准确模拟复杂场景的物理原理,可能无法理解因果关系。
“Sora对真实世界的模拟还有很多提升空间,就目前的展示内容来看,并不意味着它已经‘读懂’了物理规律。”王韫博说,因为人们并不知道究竟是模型建立了真实世界的法则,还是解码能力比较强大。
尽管Sora距离世界模型还有很长距离,但它证明了一点,即机器可以通过“投喂数据”推算出一些物理世界的规则。
“最佳试炼场”在元宇宙?
许多人认为,Sora横空出世,影视行业受到的影响将首当其冲。将来,影视剧制作的门槛将会大大降低,只要心里有故事,就可借助强大的AI工具进行创作。
但上海人工智能研究院高级分析师方帅不这样认为。在他看来,Sora确实有快速将想法变成视频的能力,但其消耗的成本并不低,而且相比文字,广告、短视频、电影等作品具有更强烈的个人风格,版权保护也更加严格,Sora生成内容的版权如何界定,值得商榷。
做了20年影视导演的陈坤则表示,借助Sora这样的工具,将灯光、布景、群演等“简单步骤”交给AI完成,制作一部电影的时间和资金可能只需以前的1/10。“Sora特别适合制作那些在现实中难以拍摄、对想象力要求特别高的内容,其最佳应用场所是元宇宙。”方帅说。
苹果公司或许是最盼望Sora能够大放异彩的科技企业。作为元宇宙硬件——混合现实(MR)头显Vision Pro的提供方,苹果亟需一款“杀手级应用”,而这依赖于海量创作者。Sora可与Vision Pro上的时空计算相匹配,极大降低创作门槛,有望引入大量创作者,让人类脑海中的想象力变成视频产品。
“短视频行业可能会迎来另一个发展高峰,收获的可能不是那些会拍视频的人,而是拥有好的审美和无穷想象力的人。”方帅说。 (摘自2月19日《文汇报》 沈湫莎文)