清华与上海AI室推出新策略TTRL，提升大语言模型推理能力

时间：2025-04-29 01:35

小编：小世评选

在当前人工智能与大语言模型（Large Language Models, LLMs）竞争日益激烈的环境中，模型的“推理能力”已成为衡量其优劣的重要标准。OpenAI的多个模型系列、Anthropic的Claude、DeepSeek-R1等皆凭借卓越表现，吸引了广泛的关注。这一系列模型背后的秘密之一便是其应用的测试时缩放（Test-Time Scaling, TTS）技术。

TTS是一种通过优化推理过程（例如，运用多数投票或蒙特卡洛树搜索等方法）在不改变模型参数的情况下提升LLM性能的新策略。与在预训练阶段扩大模型规模相比，TTS在计算效率上具有明显优势，能够以更低的资源投入取得更优的效果。但不可忽视的是，TTS的效能受限于其依赖的预训练知识，在处理未标注的新数据或遭遇输入分布变化时，模型的泛化能力显得捉襟见肘。比如，OpenAI的o3模型在某基准任务上的成功率达75.7%，不过对更复杂的新任务的解决率则低至4%。

为了解决TTS的不足，测试时训练（Test-Time Training, TTT）引起了科研界的广泛关注。TTT的关键在于通过强化学习（Reinforcement Learning, RL）技术，在测试阶段动态更新模型参数，使其能够随时适应新数据或新任务，从而弥补TTS在泛化能力上的不足。TTT同样面临挑战，主要体现在测试阶段缺乏奖励函数或验证信号，加之人工标注数据成本高昂，限制了无监督环境下的RL应用。

在这种背景下，清华大学与上海人工智能室近日共同提出了名为“测试时强化学习（Test-Time Reinforcement Learning, TTRL）”的新策略，旨在无标注数据情况下通过强化学习训练大语言模型。这一研究成果的论文标题为《TTRL: Test-Time Reinforcement Learning》，详细报道了TTRL的原理、实施及其优势。

TTRL的现代化理念在于利用预训练模型中的先验知识，使大语言模型具备自我演化的能力。相关研究表明，TTRL在多种任务和模型上均有效提升了性能。尽管TTRL依赖Maj@N指标进行监督，但其有效性远超初始模型的性能上限，并且接近于在带有标注测试数据的情况下进行监督训练的模型效果。这一发现显示了TTRL在多种应用场景中的巨大潜力。

TTRL主要依赖于一种基于多数投票的奖励机制。具体而言，模型通过从输入提示中生成多个候选输出，并利用多数投票策略推导出共识输出，构建近似的最优动作。这一机制使得即便在缺乏真实标签的条件下，TTRL也能够成功构造奖励信号，促使模型进行有效的自我优化。

在实践中，研究者在多个领域进行了测试，以检验TTRL的真实效果。例如，在AIME 2024基准上，TTRL实现了159.3%的显著提升，并超越所有基于大规模数据集训练的模型。在Qwen2.5-Math-7B模型中，TTRL在三个基准测试中平均提高了84.1%的性能。这一系列的成功结果显示，TTRL在模型自我进化中有效促进了模型从新数据中学习，使其在处理复杂任务时能够更好地适应和应对。

值得一提的是，TTRL不仅在特定目标任务上表现出色，其通用性同样得到了印证。在对Qwen2.5-Math-7B模型进行基准评估时，尽管其面临分布外的挑战，但TTRL依然实现了可观的性能提升，这表明TTRL并未陷入过拟合困境，而是在自我改进过程中获得了更为广泛的收益。

TTRL与多种标准RL算法兼容，在对MATH-500进行测试时展现了良好的稳定性和一致性。无论在奖励计算还是标签估计的过程中，TTRL都表现出了较强的鲁棒性。这为后续在多样化的RL任务中应用TTRL提供了广阔的前景。

清华大学与上海人工智能室联手推出的TTRL为提升大语言模型的推理能力提供了新的思路与解决方案，标志着在无监督强化学习领域的重大突破。随着这一技术的深入研究与应用，预计将在多个领域促进人工智能的更广泛应用与发展。对于未来的研究者TTRL将不是终点，而是开拓更深入AI研究的新起点。

清华与上海AI室推出新策略TTRL，提升大语言模型推理能力

精品推荐

相关文章