北京智源大会探讨多模态AI发展:技术与商业相结合的新挑战
时间:2025-06-12 11:45
小编:小世评选
在智源大会期间,业界对于多模态AI的讨论热烈。随着生成式AI的迅猛发展,尤其是大语言模型的崛起,多模态大模型也开始进入公众视野。在这场盛会上,许多业内专家认为,多模态AI的关键时刻尚未到来,未来的挑战依然艰巨。
多模态AI的现状与局限
智源研究院院长王仲远指出,目前的多模态AI技术主要集中在对静态图像的分析和理解上,局限于描述已有的事实。这与人类理解多模态的信息方式存在显著差异——人类更擅长从当前场景推测出未来的变化和发展。例如,当人们接近水时,他们不仅能够识别水的存在,还能够预判到可能的后果,如水会洒出或者地板会被弄湿。这种预测能力和场景理解的动态结合,成为多模态AI亟待突破的瓶颈。
技术路径的探索
在多模态AI的技术路径上,视频生成和理解的能力将成为一个重要的研究方向。AI视频创企Sand.ai的创始人兼CEO曹越认为,想要实现这一目标,深入理解过去的视频内容至关重要。Sand.ai将重点放在自回归技术的开发上,与传统的DiT架构不同,自回归方法能够逐帧、逐块地产生视频内容,从而实现更长时间的视频生成。这意味着,未来的视频生成时长有望从现在的几秒钟提升至几分钟,具有极大的技术改进空间。
多模态模型的阶段划分
在智源大会的讨论中,众多专家围绕“上下半场”的概念进行了深入探索。例如,OpenAI的姚顺雨在4月的一篇帖子中指出,AI技术正处于“下半场”,重心将从解决问题转向定义问题。这种概念同样适用于多模态模型的开发。Luma AI的首席科学家宋佳铭表示,对于多模态模型的期望是,创建一个统一的模型,能够像人类一样高效地处理多种模态的任务,同时保持良好的推理速度。
当前多模态模型在处理上下半场问题上仍然面临挑战,这意味着在预训练阶段能够有效处理多模态数据和在推理阶段进行高效解析之间,尚需做更多的技术探索。
应用落地的实际考量
从多模态模型的实际应用角度分析,腾讯混元多模态生成负责人芦清林认为,上下半场的划分并不是绝对的。他指出,模型的应用价值会随着其性能的提升而变化,关键在于专业技术人员是否开始广泛应用这些技术。如果专业人士能够通过这些技术提高工作效率,哪怕技术本身仍有改进空间,这一技术就可行,意味着已达到了实用的阶段。
字节跳动的Seed图像与视频生成负责人黄伟林则提出了三个衡量技术商业化的重要指标:用户在使用AI生成图像时的下载效率、APP的用户留存率以及收入增长。尤其是对于AI视频产品,其年度经常性收入(ARR)预计在年底将达到1亿美元,未来还可能实现5到10倍的增长,显示出市场对多模态AI产品的潜在需求与前景。
经济效益与商业价值
在技术与商业的结合层面,Sand.ai联合创始人张拯强调了有效的Scaling Law。问题在于,当模型规模和性能提升时,所带来的用户价值与经济回报是否能够覆盖成本开销。如果在商业角度下,模型维护和提升的成本过高,而用户获取的价值未能相应提升,这类技术的发展显然是无效的。
在北京智源大会上,多模态AI的发展面临着技术与商业结合的新挑战。只有通过不断的技术探索与应用实践,才能推动这一领域的进一步发展,实现AI的全面进步。而如何在技术的前沿与商业的现实时刻获取平衡,将是未来多模态AI获取成功的关键。