新型T2I-R1模型：通过强化学习提升文本生成图像能力

时间：2025-05-20 22:35

小编：小世评选

近年来，随着大语言模型（LLMs）的迅猛发展，OpenAI的o1和DeepSeek-R1等模型在多个领域展现出令人瞩目的推理能力。尤其在数学和编程方面，借助强化学习（RL）和全面思维链（CoT）策略，这些模型实现了在回答问题前进行层次化分析，从而显著提升了输出的准确率。随着多模态学习的兴起，如何将类似的推理策略应用于图像理解和生成领域也引起了广泛的研究兴趣。

尽管已有一些研究尝试将思维链推理扩展到图像理解的模型上，但对于图像生成领域的自回归处理则仍处于探索阶段。我们在相关工作中提出了“Image Generation with CoT”（https://github/ZiyuGuo99/Image-Generation-CoT），为这一领域奠定了初步基础。图像生成任务不同于图像理解任务，它需要在文本与图像之间建立更有效的跨模态对齐并生成细粒度的视觉细节。

为解决上述挑战，我们提出了T2I-R1，这是一个基于双层次CoT推理框架和强化学习的新型文本生成图像模型。我们的研究论文标题为“T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT”，论文已提交至arXiv（https://arxiv.org/pdf/2505.00703），且相关代码可在GitHub（https://github/CaraJ7/T2I-R1）找到。此项研究由中文大学的MMLab和上海人工智能实验室共同进行。

T2I-R1模型框架

T2I-R1模型的核心在于双层次CoT推理机制的设计，分为以下两个主要阶段：

1. 语义层次的推理：在图像生成之前，我们在文本层面对将要生成的图像进行推理。这一阶段聚焦于为每个对象确定外观和位置，确保生成过程中的逻辑一致性和清晰性。

2. Token级生成：这一阶段涉及图片Token的逐步生成。与文本中的CoT推理类似，图片Tokens的生成是基于先前所有生成的Token进行的推理。这种逐块生成的方式不仅能够更好地维护图像的视觉连贯性，也能够通过邻近Patch的相互联系来增强生成图像的质量。

尽管我们在模型设计中明确了两个层次的CoT推理，但在自回归生成模型中仍然存在一个关键问题。当前市场主流的图像生成模型如VAR等，往往是基于生成目标进行训练，缺乏对于推理所需的显式文本理解。这使得生成过程受限于仅具备生成能力，而缺乏深层次的文本解析与理解。

优化和奖励机制

为解决上述问题，我们通过强化学习的方法来联合优化模型的两个推理层次。我们从一个统一的多模态模型（ULM）——Janus-Pro，出发，设计了BiCoT-GRPO这一框架，旨在将语义层次与Token层次的生成结合为一个训练流程。我们利用Image Prompt指导ULM进行图像的想象和规划。在图像生成后，再将Image Prompt与图像信息一同输入ULM来进一步生成最终图像。

在这一过程中，模型可以为相同的Image Prompt产生多组中间结果，并对生成的图像进行相对奖励的计算。这一过程中，我们采用了多个视觉专家模型的集成作为奖励机制，确保生成图像的多维度评估，从而避免模型过于依赖单一的奖励模型。

实验及结果

通过我们提出的方法，我们得到了T2I-R1这一兼具推理增强特性的文本生成图像模型。实验结果表明，T2I-R1在多个基准测试中均取得了优异的表现。在T2I-CompBench和WISE的Benchmark上，T2I-R1分别比基本线模型提高了13%和19%的性能，且在多个子任务上甚至超越了目前最佳的FLUX模型。

T2I-R1的提出代表了一种创新的尝试，旨在通过强化学习和双层次的CoT推理，推进文本生成图像领域的发展，并为未来的研究提供了新的思路和方向。我们相信，随着技术的不断进步和深入探讨，T2I-R1将为多模态AI应用的广泛落地奠定重要基础。

新型T2I-R1模型：通过强化学习提升文本生成图像能力

精品推荐

相关文章