谷歌发布Veo 3，AI视频生成迈入“有声时代

时间：2025-05-23 03:15

小编：星品数码网

2023年的AI视频领域可谓风起云涌，尤其是威尔·史密斯那段神秘的吃面视频让人印象深刻——画面动态却毫无声响。彼时的视频生成模型技术虽然使得动画生动而充满活力，但始终缺乏声音的配合，无法为角色赋予生命。即使随着Sora等技术的进步，视频质量和物理建模的能力显著提升，市场却依旧留有一片“沉寂”。

随着诸如Runway、Pika、Luma、Kling、Genmo等一批初创公司的涌现，以及OpenAI、谷歌、阿里和字节跳动等科技巨头的持续布局，视频生成领域迎来了新的竞争浪潮。尽管这些企业不断追求画质的突破，视频仍然显得“哑巴”，无法带来可感知的音频效果。用户需要手动添加音频来解决角色对话、环境音效和情感氛围等问题，这显然显得繁琐而不够自然。

2023年10月，谷歌正式推出了Veo 3，标志着AI视频生成进入全新阶段。Veo 3的问世不仅提升了视频的画质，还带来了对视频内容的深刻理解，能够自动生成与视频画面同步的对话以及多种音效，真正实现了视频的“有声时代”。

借助Veo 3，创作者只需要输入一个简单的提示词，即可生成完整且流畅的视频。例如，用户可以描述一个90年代酒吧的场景，提示词可以是：“酒吧背景墙上的霓虹灯写着‘fofr’，一对夫妇说了一些什么，观众笑声一片。”Veo 3不仅生成了一段8秒的视频，还实现了对白生成、唇动对齐和现场氛围音效（如观众的笑声）的一气呵成。

而如果你想制作一个游戏视频，Veo 3也能瞬间满足用户需求。只需提供相关提示，如“一个游戏主播仅凭他的镐子（pickaxe）赢得了比赛”，系统即可生成带有夸张欢呼的完整风格视频，确保画面有声有色。

Veo 3的能力在于它对物理世界的深刻理解，声音并非后期拼接，而是与画面实时生成，给观众带来了更加沉浸的体验。比如，当拍摄雪地场景时，背景中的脚步声清晰可闻，甚至烹饪时锅里的滋滋声、鸭子的嘎嘎叫声都表现得相当到位。

更加引人注目的是Veo 3在音画同步方面的卓越表现。无论是脱口秀现场的笑话，还是音乐视频中的说唱，Veo 3都能精准地实现口型的同步，增强了视频的真实感。例如，当用户输入一个提示：“一个人在小场馆进行脱口秀，讲述一个笑话”，生成的视频能够流畅地呈现出表演者的生动表情和幽默举动。

而在生成歌剧或音乐会视频的过程中，Veo 3展现了其出色的音画同步能力。鼓手的每一次击打都与鼓点节奏完美契合，展现出其在复杂音频和多声道动态场景中的出色表现。这种能力让用户不禁想起《演员请就位》等节目中那些优秀的表演，让虚拟角色的演技与真实演员相差无几。

值得注意的是，Veo 3不仅限于短小的提示词，而是能够理解更复杂的描述。用户可以提交更长的提示，例如：“黎明时分，一位男士在美丽的夏日公园里奔跑，上气不接下气地看着镜头说：‘用API运行使用Replicate。’”随后完成的这段视频流畅地包含了动作变化、对白插入、镜头切换等多个元素，展现出极佳的逻辑流畅性。

这背后的核心技术来自于谷歌旗下的DeepMind。早在2023年6月，DeepMind就首次披露其研发的新系统，能够从视频像素和文本提示中自动生成完整的音轨，包括对白、动作音效、环境音和背景音乐等。与谷歌丰富的音视频数据资源（例如YouTube）相结合，Veo 3的音画合成功能处于业界前列。

尽管目前Veo 3仍然存在只有8秒钟视频长度的限制，并且目前只向美国Ultra订阅用户开放，定价为249.99美元/月。虽然这在一定程度上限制了其使用范围，但Veo 3的初次亮相已足够令人震撼。随着技术的不断进步，生成视频将进入一个全新的领域，不再只是简单的“动和静”的对比，而是逐渐朝着“会说”和“有氛围”的方向前进。

Veo 3的问世不仅是在视频生成技术上的一次重大突破，也让AI能够“听懂”和“会说”。音画一体将成为下一轮视频模型竞赛的关键，而这开启了AI视频生成的全新篇章。

谷歌发布Veo 3，AI视频生成迈入“有声时代

精品推荐

相关文章