谷歌发布新一代AI视频生成模型Veo 3，实现音画深度耦合

时间：2025-05-26 23:05

小编：星品数码网

在全球瞩目的开发者盛会Google I/O 2023上，谷歌隆重推出其最新研发的AI视频生成模型Veo 3。这一突破性技术标志着AI视频创作进入全新的“有声时代”，极大提升了视频内容的表现力和沉浸感。此次发布不仅吸引了行业内的广泛关注，也为内容创作者提供了全新的创作工具。

Veo 3是谷歌最新一代的视频生成模型，相较于先前版本，Veo 3在音频和视觉内容的生成方面实现了显著进步。其核心功能包括音频与视频的一体化生成，叙事能力的增强，以及多场景与多模态的适配能力。

音频与视频深度耦合是Veo 3的一大创新。该模型不仅能够生成与视频内容高度一致的音效，还能原生创造复杂的环境声和角色对话。例如，在用户创建一个描述城市公园的场景时，Veo 3会生成连贯的画面，同时伴有与场景相匹配的鸟鸣声和市区的交通噪音，从而增强了视频的真实感和沉浸感。这代表着AI生成的视频将不再是简单的图像展示，而是能够传达出更为丰富的情感和氛围。

Veo 3的叙事理解与呈现能力让人惊叹。基于谷歌强大的Gemini大模型，Veo 3能够深入理解自然语言提示，生成连贯且生动的动态视频。用户只需提供简短的故事场景描述，模型便能创造出令人信服的视频片段。例如，当用户输入提示“在夕阳下的咖啡馆，顾客们正在轻声交谈”时，Veo 3能够自动生成反映这个场景的动态视频，且画面中的角色会准确地进行口型同步，同时伴随着应景的环境音效，这让视频的叙事性和表现力达到了一个新的高度。

Veo 3支持多种输入方式，用户不仅可以通过文本提示生成视频，还能根据给定的图像作为参考进行创作。这种灵活的创作方式为内容创作者提供了更广阔的创作空间，能够根据自身需求和想法自由地探寻多样的故事呈现方式。

在发布会上，谷歌展示了多个Veo 3的应用案例，充分展现了其在“音画深度耦合叙事”方面的突破。例如，模型成功生成了一段描述“侦探审问紧张的橡皮鸭”的趣味场景，展现了拟人化对话的风趣；还有“露营定格动画中露营者与熊的互怼”以及“追踪镜头下猫头鹰穿越森林”的复杂镜头语言，都让人们看到了Veo 3在不同风格下的创作能力。

更加值得一提的是，谷歌与著名导演达伦·阿伦诺夫斯基（Darren Aronofsky）的制片公司Primordial Soup的合作也在大会上首次公布。他们联合发布了融合AI生成技术的电影《ANCESTRA》的首支预告片。阿伦诺夫斯基在接受采访时提到，电影是将人与人之间故事联系起来的一种深层次人类行为。他表示，利用AI模型作为讲故事工具的探索是非常有趣的，期待这类技术能够为电影创作带来新的可能性。

Veo 3目前已向特定用户逐步开放，尤其是美国地区的Google AI Ultra订阅用户，能够通过Flow工具和Gemini应用程序体验该模型。这一新的技术将很快推广至更多国家和地区，预计将极大改变视频内容的生成和创作方式。

Veo 3的发布不仅是谷歌在AI视频生成领域的一次技术革新，更是推动整个数字创作产业发展的重要里程碑。随着AI技术的不断突破，人们在创作过程中将享受到更加便捷和多样的工具，激发出更多的创作灵感与故事可能性。未来，Veo 3将为视频创作者打开一扇全新的创作之门，让我们拭目以待这一技术如何推动影视、广告等多个领域的发展。

谷歌发布新一代AI视频生成模型Veo 3，实现音画深度耦合

精品推荐

相关文章