清华与上海AI室推出新策略TTRL,提升大语言模型推理能力
时间:2025-04-29 01:35
小编:小世评选
在当前人工智能与大语言模型(Large Language Models, LLMs)竞争日益激烈的环境中,模型的“推理能力”已成为衡量其优劣的重要标准。OpenAI的多个模型系列、Anthropic的Claude、DeepSeek-R1等皆凭借卓越表现,吸引了广泛的关注。这一系列模型背后的秘密之一便是其应用的测试时缩放(Test-Time Scaling, TTS)技术。
TTS是一种通过优化推理过程(例如,运用多数投票或蒙特卡洛树搜索等方法)在不改变模型参数的情况下提升LLM性能的新策略。与在预训练阶段扩大模型规模相比,TTS在计算效率上具有明显优势,能够以更低的资源投入取得更优的效果。但不可忽视的是,TTS的效能受限于其依赖的预训练知识,在处理未标注的新数据或遭遇输入分布变化时,模型的泛化能力显得捉襟见肘。比如,OpenAI的o3模型在某基准任务上的成功率达75.7%,不过对更复杂的新任务的解决率则低至4%。
为了解决TTS的不足,测试时训练(Test-Time Training, TTT)引起了科研界的广泛关注。TTT的关键在于通过强化学习(Reinforcement Learning, RL)技术,在测试阶段动态更新模型参数,使其能够随时适应新数据或新任务,从而弥补TTS在泛化能力上的不足。TTT同样面临挑战,主要体现在测试阶段缺乏奖励函数或验证信号,加之人工标注数据成本高昂,限制了无监督环境下的RL应用。
在这种背景下,清华大学与上海人工智能室近日共同提出了名为“测试时强化学习(Test-Time Reinforcement Learning, TTRL)”的新策略,旨在无标注数据情况下通过强化学习训练大语言模型。这一研究成果的论文标题为《TTRL: Test-Time Reinforcement Learning》,详细报道了TTRL的原理、实施及其优势。
TTRL的现代化理念在于利用预训练模型中的先验知识,使大语言模型具备自我演化的能力。相关研究表明,TTRL在多种任务和模型上均有效提升了性能。尽管TTRL依赖Maj@N指标进行监督,但其有效性远超初始模型的性能上限,并且接近于在带有标注测试数据的情况下进行监督训练的模型效果。这一发现显示了TTRL在多种应用场景中的巨大潜力。
TTRL主要依赖于一种基于多数投票的奖励机制。具体而言,模型通过从输入提示中生成多个候选输出,并利用多数投票策略推导出共识输出,构建近似的最优动作。这一机制使得即便在缺乏真实标签的条件下,TTRL也能够成功构造奖励信号,促使模型进行有效的自我优化。
在实践中,研究者在多个领域进行了测试,以检验TTRL的真实效果。例如,在AIME 2024基准上,TTRL实现了159.3%的显著提升,并超越所有基于大规模数据集训练的模型。在Qwen2.5-Math-7B模型中,TTRL在三个基准测试中平均提高了84.1%的性能。这一系列的成功结果显示,TTRL在模型自我进化中有效促进了模型从新数据中学习,使其在处理复杂任务时能够更好地适应和应对。
值得一提的是,TTRL不仅在特定目标任务上表现出色,其通用性同样得到了印证。在对Qwen2.5-Math-7B模型进行基准评估时,尽管其面临分布外的挑战,但TTRL依然实现了可观的性能提升,这表明TTRL并未陷入过拟合困境,而是在自我改进过程中获得了更为广泛的收益。
TTRL与多种标准RL算法兼容,在对MATH-500进行测试时展现了良好的稳定性和一致性。无论在奖励计算还是标签估计的过程中,TTRL都表现出了较强的鲁棒性。这为后续在多样化的RL任务中应用TTRL提供了广阔的前景。
清华大学与上海人工智能室联手推出的TTRL为提升大语言模型的推理能力提供了新的思路与解决方案,标志着在无监督强化学习领域的重大突破。随着这一技术的深入研究与应用,预计将在多个领域促进人工智能的更广泛应用与发展。对于未来的研究者TTRL将不是终点,而是开拓更深入AI研究的新起点。