北京智源发布OmniGen2：新图像生成模型一周内GitHub星标突破2000

时间：2025-07-04 08:25

小编：星品数码网

在人工智能技术飞速发展的时代，北京智源人工智能研究院（以下简称“智源”）又一次引领了科技潮流。2024年9月，该研究院推出的统一图像生成模型OmniGen在短短一周内，便在GitHub上获得超过2000的星标，证明其在AI图像生成领域的广泛关注和认可。同时，相关话题在多个海外社交上的浏览量也达到了数十万次，显示出国内外对该模型的热烈反响。

OmniGen作为智源研究院的首个统一图像生成模型，自发布以来便因其高度的通用性与简洁的架构获得了国内外技术社区的广泛赞誉。OmniGen的独特之处在于它能够通过一个单一的框架，实现文本生成图像（Text-to-Image Generation）、图像编辑（Image Editing）、主题驱动图像生成（Subject-driven Image Generation）等多种任务。这种灵活性使得用户只需通过多模态自然语言指令，就能轻松实现复杂的图像生成过程，而无需额外的上下文提示或插件，从而极大地降低了使用门槛。

在发布后的市场回响中，智源发现随着其它大型闭源多模态模型的出现，构建统一图像生成模型的需求愈发显著。因此，智源决定进行重大技术升级，推出全新的OmniGen2，使其在原有基础上焕发出新的活力。OmniGen2在4B版本中，不仅继续沿用OmniGen的简洁架构优势，还进一步加强了上下文理解和指令遵循的能力，显著提升了生成图像的质量。这一代模型全面继承了基于多模态大模型的上下文理解与生成能力，支持更加丰富的图像和文字生成，构建了一个更加完整的多模态技术生态。

值得一提的是，OmniGen2在架构上实现了三大核心突破。通过“分离式设计”，模型将文字处理和图像处理分开，搭配两种专业编码器，从而确保生成的图像更加贴合用户的文字指令，而不影响文字处理的能力。针对开源数据集质量参差不齐的问题，智源的研发团队制定了从视频及图像数据中生成高质量图像编辑和上下文参考数据的构造流程，确保模型的训练数据能够达到更高的标准。

最引人注目的是，OmniGen2能够对生成的图像进行自我检查，主动分析生成结果中的不足之处。这一智能反馈机制不仅能够识别指令中的缺陷，还能思考如何改进生成效果，使得未来的图像生成过程更加智能和可靠。用户体验方面，OmniGen2的操作门槛极低，只需输入简短的文字指令，便可以轻松实现以下三大核心能力：

1. 局部修改操作：用户可以通过自然语言指令，对图像进行物体增删、颜色调整、人物表情修改、背景替换等操作，令创作过程变得高效便捷。

2. 元素提取与新图像生成：用户可以从输入的图像中提取特定的元素，并将其重新组合到新的场景中，生成全新的图像。值得注意的是，OmniGen2在保持物体相似度方面表现出色，尤其是在处理非人脸元素时。

3. 灵活的比例生成：OmniGen2支持生成1:1、2:1、3:2等任意比例的图像，满足不同用户的需求。

为了提升用户体验，OmniGen2实现了32%的推理效率提升，极大缩短了响应时间，并增强了服务效能。该模型的框架已支持一键式跨机多实例弹性部署，大幅提高了集群资源的整体利用率。智源团队正持续推进软硬件的协同优化，构建高效的推理部署能力体系，从而为开发者提供一个更为强大的基础，助力统一图像生成模型的迅速普及。

OmniGen2不仅提升了图像生成的技术水平，也为科技爱好者和开发者提供了更多的创作可能性。作为AI图像生成领域的一款重要产品，OmniGen2正以其开创性的技术与人性化的操作方式，引领着人们在数字创作的新时代中不断探索新的可能。

北京智源发布OmniGen2：新图像生成模型一周内GitHub星标突破2000

精品推荐

相关文章