📄 Deep Tech

ArXiv 最新

LLMs Improving/ˌɪmˈpruvɪŋ/ LLMs: Agentic Discovery/ˌdɪˈskəvri/ for Test-Time/testtime*/ Scaling

Tong Zheng, Haolin Liu, Chengsong Huang 2026-05-08 cs.CL

Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, l...

查看中文翻译

测试时间缩放(TTS)已成为通过在推理过程中分配额外计算来提高大型语言模型性能的有效方法。然而,现有的 TTS 策略很大程度上是手工设计的:研究人员手动设计推理模式并凭直觉调整启发式方法,从而留下了许多计算分配空间未被探索。我们提出了一个环境驱动的框架 AutoTTS,它改变了研究人员的设计:从单独的 TTS 启发法到可以自动发现 TTS 策略的环境。 AutoTTS的关键在于环境构建:发现环境必须使控制空间易于处理,并为TTS搜索提供廉价、频繁的反馈。作为一个具体的实例,我们将宽度-深度 TTS 制定为预先收集的推理轨迹和探测信号的控制器综合,其中控制器决定何时分支、继续、探测、修剪或停止,并且可以廉价地进行评估,而无需重复的 LLM 调用。我们进一步引入 beta 参数化,使搜索易于处理,并提供细粒度的执行跟踪反馈,通过帮助代理诊断 TTS 程序失败的原因来提高发现效率。数学推理基准的实验表明,所发现的策略提高了整体准确性——相对于强大的手动设计基准的成本权衡。发现的策略可推广到现有的基准和模型规模,而整个发现的成本仅为 39.9 美元和 160 分钟。我们的数据和代码将在 https://github.com/zhengkid/AutoTTS 开源。

阅读原文 →

Conformal/conformal*/ Path Reasoning:/ˈrizənɪŋ/ Trustworthy/ˈtrəstˌwərði/ Knowledge/ˈnɑlɪʤ/ Graph Question/kˈwɛʃən/ Answering/ˈænsərɪŋ/ via Path-Level/pathlevel*/ Calibration/ˌkæləˈbreɪʃən/

Shuhang Lin, Chuhao Zhou, Xiao Lin 2026-05-08 cs.CL

Knowledge Graph Question Answering (KGQA) has shown promise for grounded and interpretable reasoning, yet existing approaches often fail to provide reliable coverage guarantees over retrieved answers. While Conformal Prediction (CP) offers a principled framework for producing prediction sets with st...

查看中文翻译

知识图问答(KGQA)已显示出有基础且可解释的推理的前景,但现有方法往往无法对检索到的答案提供可靠的覆盖保证。虽然保形预测(CP)提供了一个用于生成具有统计保证的预测集的原则框架,但先前的方法在校准有效性和分数可辨别性方面都受到严重限制,导致违反覆盖率保证和过大的预测集。为了解决这些陷阱,我们提出了保形路径推理 (CPR),这是一个值得信赖的 KGQA 框架,具有两项关键创新。首先,我们对路径级分数执行查询级保形校准,在生成路径预测集的同时保留可交换性。其次,我们介绍了残余共形价值网络(RCVNet),这是一个通过 PUCT 引导探索训练的轻量级模块,用于学习有区别的路径级不合格分数。基准实验表明,与保形基线相比,CPR 将经验覆盖率显着提高了 34%,同时将平均预测集大小减少了 40%。这些结果验证了 CPR 在通过更加紧凑的答案集满足覆盖保证方面的功效。

阅读原文 →

EmambaIR:/emambair*/ Efficient/ɪˈfɪʃənt/ Visual State Space Model for Event-guided/eventguided*/ Image Reconstruction/ˌrikənˈstrəkʃən/

Wei Yu, Yunhang Qian 2026-05-08 cs.CV | cs.AI

Recent event-based image reconstruction methods predominantly rely on Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) to process complementary event information. However, these architectures face fundamental limitations: CNNs often fail to capture global feature correlations, whe...

查看中文翻译

最近基于事件的图像重建方法主要依靠卷积神经网络(CNN)和视觉变换器(ViT)来处理补充事件信息。然而,这些架构面临着根本的限制:CNN 通常无法捕获全局特征相关性,而 ViT 会产生二次计算复杂度(例如 $O(n^2)$),阻碍了它们在高分辨率场景中的应用。为了解决这些瓶颈,我们引入了 EmambaIR,这是一种高效的视觉状态空间模型,设计用于使用空间稀疏和时间连续的事件流进行图像重建。我们的框架引入了两个关键组件:跨模态 Top-k 稀疏注意力模块(TSAM)和门控状态空间模块(GSSM)。 TSAM 有效地执行像素级 top-k 稀疏注意力来指导跨模态交互,产生丰富而稀疏的融合特征。随后,GSSM 利用非线性门控单元来增强普通线性复杂度 ($O(n)$) SSM 的时间表示,从而有效捕获全局上下文依赖性,而无需典型的计算开销。对三个不同图像重建任务(运动去模糊、去雨和高动态范围 (HDR) 增强)的六个数据集进行的广泛实验表明,EmambaIR 的性能显着优于最先进的方法,同时大幅降低了内存消耗和计算成本。源代码和数据可公开获取:https://github.com/YunhangWickert/EmambaIR

阅读原文 →