LLMs Improving/ˌɪmˈpruvɪŋ/ LLMs: Agentic Discovery/ˌdɪˈskəvri/ for Test-Time/testtime*/ Scaling
Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, l...
查看中文翻译
测试时间缩放(TTS)已成为通过在推理过程中分配额外计算来提高大型语言模型性能的有效方法。然而,现有的 TTS 策略很大程度上是手工设计的:研究人员手动设计推理模式并凭直觉调整启发式方法,从而留下了许多计算分配空间未被探索。我们提出了一个环境驱动的框架 AutoTTS,它改变了研究人员的设计:从单独的 TTS 启发法到可以自动发现 TTS 策略的环境。 AutoTTS的关键在于环境构建:发现环境必须使控制空间易于处理,并为TTS搜索提供廉价、频繁的反馈。作为一个具体的实例,我们将宽度-深度 TTS 制定为预先收集的推理轨迹和探测信号的控制器综合,其中控制器决定何时分支、继续、探测、修剪或停止,并且可以廉价地进行评估,而无需重复的 LLM 调用。我们进一步引入 beta 参数化,使搜索易于处理,并提供细粒度的执行跟踪反馈,通过帮助代理诊断 TTS 程序失败的原因来提高发现效率。数学推理基准的实验表明,所发现的策略提高了整体准确性——相对于强大的手动设计基准的成本权衡。发现的策略可推广到现有的基准和模型规模,而整个发现的成本仅为 39.9 美元和 160 分钟。我们的数据和代码将在 https://github.com/zhengkid/AutoTTS 开源。