上海AI实验室与高校联合研发新技术解决强化学习策略熵崩溃问题

时间：2025-07-13 16:30

小编：小世评选

上海人工智能实验室近期与清华大学、伊利诺伊大学香槟分校等高等学府组成了一个国际研究团队，旨在突破强化学习领域中的一个重要难题——策略熵崩溃。借助Clip-Cov和KL-Cov两项新技术，该团队成功开发出有效的解决方案，标志着强化学习在应用潜力和理论深度上的进一步提升。

近年来，大型语言模型（LLMs）在推理能力上的表现愈加卓越，使得强化学习的应用场景不断扩展，从单一任务逐步向更为复杂的多任务环境发展。这一进展不仅提升了模型的泛化能力，还增强了其逻辑推理的能力。与传统模仿学习相比，强化学习对计算资源的需求更为严苛，主要体现在其对经验学习的依赖程度上。

强化学习的核心在于策略熵，这一指标能够反映出模型在利用已有策略与探索新策略之间的平衡。在训练过程中，策略熵的下降常常会导致模型对现有策略产生过度依赖，进而损失探索的能力。一旦熵值过低，模型表现出趋于“固执”的现象，无法适应新环境和新挑战。这种探索和利用的权衡（exploitation-exploration trade-off）正是强化学习的基本原则，因此控制策略熵的动态变化成为了训练过程中的一个重要挑战。

为了解决这一难题，上海人工智能实验室的研究团队提出了一个创新的经验公式R = −a exp H + b，其中H表示策略熵，R则代表下游任务的表现，a和b为拟合系数。这一公式揭示了策略性能与熵值之间的微妙权衡，明确了熵的耗尽是性能提升的瓶颈所在。

进一步的研究中，团队分析了熵的动态变化，发现其变化受到动作概率与logits（神经网络输出的未归一化值）之间协方差的驱动。为了维持熵水平，团队创新性地推出了Clip-Cov与KL-Cov技术。Clip-Cov技术主要通过裁剪高协方差的token来抑制策略熵的过度下降；而KL-Cov则是施加Kullback-Leibler（KL）惩罚，以此保持熵值在较高水平。

在这些新技术的支持下，研究团队采用了Qwen2.5模型和DAPOMATH数据集进行实验，涵盖了多个数学任务。实验结果喜人：在7B和32B两个模型上，性能分别提升了2.0%和6.4%。尤为值得注意的是，对于AIME24和AIME25这两个高难度基准测试，32B模型的性能提升甚至高达15.0%。这些成果不仅证明了Clip-Cov和KL-Cov技术的有效性，同时也为未来强化学习在语言模型中的更广泛应用奠定了理论基础。

研究团队还对包括Qwen2.5、Mistral、LLaMA、DeepSeek等11个开源模型进行了广泛的测试，这些模型的参数规模从0.5B到32B不等，覆盖了数学和编程任务的8个公开基准测试。实验采用veRL框架和零样本设置，与GRPO、REINFORCE++等算法结合优化策略性能，验证了新技术的效果。结果表明，Clip-Cov和KL-Cov技术能够有效维持更高的熵水平，例如，KL-Cov方法在基线熵值趋于平稳时仍能保持10倍以上的熵值，这一发现对未来强化学习的发展具有重要意义。

研究团队不仅成功解决了策略熵崩溃问题，还为强化学习在大型语言模型中的扩展提供了理论支持。这项研究强调了熵动态在性能提升过程中的重要性，未来的工作将继续聚焦于熵管理策略的探索，以推动更智能的语言模型发展。随着技术的不断进步，强化学习在不同行业和领域的应用前景将更加广阔，为人类的智能决策与自动化提供支持。

此项研究的成果将为强化学习领域带来新的转机，同时也为相关学术研究和应用开发提供了丰富的思路和路径。期待未来看到更多创新技术的突破以及其在更广泛场景下的应用。

上海AI实验室与高校联合研发新技术解决强化学习策略熵崩溃问题

精品推荐

相关文章