谷歌发布Veo 3,AI视频生成迈入“有声时代
时间:2025-05-23 03:15
小编:小世评选
2023年的AI视频领域可谓风起云涌,尤其是威尔·史密斯那段神秘的吃面视频让人印象深刻——画面动态却毫无声响。彼时的视频生成模型技术虽然使得动画生动而充满活力,但始终缺乏声音的配合,无法为角色赋予生命。即使随着Sora等技术的进步,视频质量和物理建模的能力显著提升,市场却依旧留有一片“沉寂”。
随着诸如Runway、Pika、Luma、Kling、Genmo等一批初创公司的涌现,以及OpenAI、谷歌、阿里和字节跳动等科技巨头的持续布局,视频生成领域迎来了新的竞争浪潮。尽管这些企业不断追求画质的突破,视频仍然显得“哑巴”,无法带来可感知的音频效果。用户需要手动添加音频来解决角色对话、环境音效和情感氛围等问题,这显然显得繁琐而不够自然。
2023年10月,谷歌正式推出了Veo 3,标志着AI视频生成进入全新阶段。Veo 3的问世不仅提升了视频的画质,还带来了对视频内容的深刻理解,能够自动生成与视频画面同步的对话以及多种音效,真正实现了视频的“有声时代”。
借助Veo 3,创作者只需要输入一个简单的提示词,即可生成完整且流畅的视频。例如,用户可以描述一个90年代酒吧的场景,提示词可以是:“酒吧背景墙上的霓虹灯写着‘fofr’,一对夫妇说了一些什么,观众笑声一片。”Veo 3不仅生成了一段8秒的视频,还实现了对白生成、唇动对齐和现场氛围音效(如观众的笑声)的一气呵成。
而如果你想制作一个游戏视频,Veo 3也能瞬间满足用户需求。只需提供相关提示,如“一个游戏主播仅凭他的镐子(pickaxe)赢得了比赛”,系统即可生成带有夸张欢呼的完整风格视频,确保画面有声有色。
Veo 3的能力在于它对物理世界的深刻理解,声音并非后期拼接,而是与画面实时生成,给观众带来了更加沉浸的体验。比如,当拍摄雪地场景时,背景中的脚步声清晰可闻,甚至烹饪时锅里的滋滋声、鸭子的嘎嘎叫声都表现得相当到位。
更加引人注目的是Veo 3在音画同步方面的卓越表现。无论是脱口秀现场的笑话,还是音乐视频中的说唱,Veo 3都能精准地实现口型的同步,增强了视频的真实感。例如,当用户输入一个提示:“一个人在小场馆进行脱口秀,讲述一个笑话”,生成的视频能够流畅地呈现出表演者的生动表情和幽默举动。
而在生成歌剧或音乐会视频的过程中,Veo 3展现了其出色的音画同步能力。鼓手的每一次击打都与鼓点节奏完美契合,展现出其在复杂音频和多声道动态场景中的出色表现。这种能力让用户不禁想起《演员请就位》等节目中那些优秀的表演,让虚拟角色的演技与真实演员相差无几。
值得注意的是,Veo 3不仅限于短小的提示词,而是能够理解更复杂的描述。用户可以提交更长的提示,例如:“黎明时分,一位男士在美丽的夏日公园里奔跑,上气不接下气地看着镜头说:‘用API运行使用Replicate。’”随后完成的这段视频流畅地包含了动作变化、对白插入、镜头切换等多个元素,展现出极佳的逻辑流畅性。
这背后的核心技术来自于谷歌旗下的DeepMind。早在2023年6月,DeepMind就首次披露其研发的新系统,能够从视频像素和文本提示中自动生成完整的音轨,包括对白、动作音效、环境音和背景音乐等。与谷歌丰富的音视频数据资源(例如YouTube)相结合,Veo 3的音画合成功能处于业界前列。
尽管目前Veo 3仍然存在只有8秒钟视频长度的限制,并且目前只向美国Ultra订阅用户开放,定价为249.99美元/月。虽然这在一定程度上限制了其使用范围,但Veo 3的初次亮相已足够令人震撼。随着技术的不断进步,生成视频将进入一个全新的领域,不再只是简单的“动和静”的对比,而是逐渐朝着“会说”和“有氛围”的方向前进。
Veo 3的问世不仅是在视频生成技术上的一次重大突破,也让AI能够“听懂”和“会说”。音画一体将成为下一轮视频模型竞赛的关键,而这开启了AI视频生成的全新篇章。