近日,《中国科学报》刊发浙江大学计算机科学与技术学院研究员朱霖潮、求是讲席教授杨易文章《面对“视觉幻象”,Sora还需质的飞跃》。
文 | 朱霖潮 杨易

最近,美国人工智能研究公司OpenAI推出了一个名为Sora的项目,将视频生成技术推向了新高度。它能根据人类随意的描述,创造出长达60秒的逼真视频,这在以前是难以想象的。人们所构思的场景、人物,乃至他们的动作和互动,都能以惊人的真实性和细腻度呈现出来,具有前所未有的互动性和真实感。
即使在一个跳跃剪辑的电影场景中,Sora也能像一个经验丰富的电影导演一样,确保每一帧图像紧密相连、故事流畅衔接。OpenAI提供的示例显示,Sora能够精准处理物体和角色随时间变化的关系,即使某些角色暂时“隐身”,当它们再次出现时,依旧能够自然地融入故事的脉络中。
Sora还能为同一个角色创造多个视角,就像现实生活中人们能从不同角度观察同一物体一样,增加了故事的立体感和深度。
Sora在生成式人工智能的应用层面取得了令人惊叹的进展,能够创造出非常符合人类感知习惯的视频,但在技术层面,Sora还是基于已有的成果,突破相对有限。
Sora模拟视频中,在海中飞舞的蝴蝶犹如实景拍摄。图片来源:Sora官网
如果让一位从未学习过物理学的艺术家画一幅画,描述一个苹果从桌子上掉下来的过程,他可能会创造出视觉上具有吸引力的画面,但画中苹果的下落轨迹可能不符合重力定律。
Sora的情况也类似。例如,当Sora尝试生成一个玻璃瓶破碎的场景时,它可能模拟出符合人类感知的瓶子破碎和碎片飞溅的视觉效果。由于缺乏对物理定律的深入理解,这些碎片的飞溅路径不会完全符合现实世界中的物理规律。也就是说,虽然这些生成结果看似逼真,但是碎片的速度、方向和分布可能与实际发生的情况有所偏差。
在很多应用场景中,尤其是在工程仿真、游戏开发和电影特效中,详细的物理交互模拟是必不可少的,例如,精确模拟水流如何绕过障碍物、火焰如何在不同材料上蔓延等。这些基于物理的仿真技术能提供复杂现象的深度细节和动态变化,而Sora这样的视频生成模型目前还无法实现这种级别的物理交互细节。不准确的细节可能会打破沉浸感,让人们意识到自己只是在观看一个由机器生成的模拟世界。
上述的“视觉幻象”问题是内容生成领域长期存在的一大挑战。具体来说,“视觉幻象”是指图像在生成过程中出现的与现实世界不一致的现象。这种现象的根源在于人工智能生成模型的工作方式。当前以Sora为代表的人工智能生成模型极度依赖大量训练数据,通过深度学习算法,这些模型“学习”如何生成看似逼真的视频。
“SORA”云彩图像。图片来源:Sora官网
然而,其局限性在于,这一学习过程并没有实现对物理世界知识的真正理解。因此,尽管生成的视频在视觉上可能令人印象深刻,但在细节上往往无法完全遵循现实世界的物理定律,在模拟复杂的物理互动时,也不尽如人意。
当前的深度学习技术在模拟复杂物理现象时遇到瓶颈揭示了一个关键问题:要想创造出真正符合现实物理规律的虚拟内容,单靠增加数据量和优化现有算法可能是不够的。解决“视觉幻象”问题需要一种质的飞跃,而非仅仅依赖技术的渐进式改进。
笔者认为,解决“视觉幻象”问题需要跳出传统深度学习技术的思维框架,探索一种能将数据驱动模型与知识有机融合的新技术。这种新技术将以数据和知识的双轮驱动为核心,一方面能对海量数据进行高效处理,另一方面能精确地理解和表达物理知识。
为了建立这样的系统,我们需要深入研究如何整合来自不同学科领域的知识,包括但不限于力学、光学、图形学以及认知科学。我们需要研究新的知识表达机制,将跨学科、跨领域的深层知识结构化,并有效融入人工智能系统中。这种知识整合将为人工智能系统提供更全面、更深刻的关于物理世界的理解,从而使系统在生成过程中能够自然而然地遵循现实世界的物理规律。
Sora也能够生成动画视频。图片来源:Sora官网
此外,探索交互式学习机制将成为提高人工智能系统理解和模拟复杂物理现象能力的关键。当模型在模拟环境中与物理世界动态交互时,其不仅能在实践中学习知识,还能在实时反馈中不断调整和优化其行为与生成内容的准确性。这种交互式学习不仅能显著增强生成内容的真实感,还能够推动高效仿真和可视化技术的发展,为数字世界的内容生成开创新局面。
人们对人工智能生成技术的探索仍处于初步阶段,突破的关键可能在于数据与物理知识的深层次结合。随着技术的持续进步,我们有理由相信,未来将有更丰富、更接近现实的视觉体验。