📄 Deep Tech

ArXiv 最新

MM-WebAgent:/mmwebagent*/ A Hierarchical/ˌhaɪˈrɑrkəkəl/ Multimodal/multimodal*/ Web Agent for Webpage Generation/ˌʤɛnərˈeɪʃən/

Yan Li, Zezi Zeng, Yifan Yang 2026-04-16 cs.CV | cs.AI

The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage ...

查看中文翻译

人工智能生成内容 (AIGC) 工具的快速发展使得可以根据网页设计的需求创建图像、视频和可视化,为现代 UI/UX 提供了灵活且日益采用的范例。然而,直接将这些工具集成到自动化网页生成中通常会导致风格不一致和全局一致性差,因为元素是孤立生成的。我们提出了 MM-WebAgent,这是一种用于多模式网页生成的分层代理框架,它通过分层规划和迭代自我反思来协调基于 AIGC 的元素生成。 MM-WebAgent 共同优化全局布局、本地多模式内容及其集成,生成连贯且视觉一致的网页。我们进一步引入了多模式网页生成的基准和用于系统评估的多级评估协议。实验表明,MM-WebAgent 的性能优于代码生成和基于代理的基线,尤其是在多模式元素生成和集成方面。代码和数据:https://aka.ms/mm-webagent。

阅读原文 →

Generalization/ˌʤɛnərəlɪˈzeɪʃən/ in LLM Problem Solving: The Case of the Shortest/ˈʃɔrtɪst/ Path

Yao Tong, Jiayuan Ye, Anastasia Borovykh 2026-04-16 cs.AI | cs.LG

Whether language models can systematically generalize remains actively debated. Yet empirical performance is jointly shaped by multiple factors such as training data, training paradigms, and inference-time strategies, making failures difficult to interpret. We introduce a controlled synthetic enviro...

查看中文翻译

语言模型是否可以系统地泛化仍然存在激烈争论。然而,经验表现是由训练数据、训练范式和推理时间策略等多种因素共同决定的,这使得失败难以解释。我们引入了基于最短路径规划的受控合成环境,这是一个典型的可组合顺序优化问题。该设置可以清楚地分离这些因素,并支持两个正交轴的概括:空间转移到看不见的地图和长度缩放到更长的视野问题。我们发现模型表现出很强的空间转移,但由于递归不稳定而在长度缩放下始终失败。我们进一步分析学习管道的不同阶段如何影响系统问题的解决:例如,数据覆盖范围设置了能力限制;强化学习提高了训练的稳定性,但并没有扩大这些限制;推理时间缩放可以提高性能,但无法挽救长度缩放失败。

阅读原文 →

Diagnosing/ˌdaɪəgˈnoʊsɪŋ/ LLM Judge Reliability:/riˌlaɪəˈbɪləti/ Conformal/conformal*/ Prediction/priˈdɪkʃən/ Sets and Transitivity/transitivity*/ Violations/vaɪəˈleɪʃənz/

Manan Gupta, Dhruv Kumar 2026-04-16 cs.AI | cs.CL

LLM-as-judge frameworks are increasingly used for automatic NLG evaluation, yet their per-instance reliability remains poorly understood. We present a two-pronged diagnostic toolkit applied to SummEval: $\textbf{(1)}$ a transitivity analysis that reveals widespread per-input inconsistency masked by ...

查看中文翻译

LLM 作为法官的框架越来越多地用于自动 NLG 评估,但它们的每个实例的可靠性仍然知之甚少。我们提出了一个应用于 SummEval 的双管齐下的诊断工具包:$\textbf{(1)}$ 一种传递性分析,揭示了被低总违规率掩盖的广泛的每个输入不一致性($\barρ = 0.8$-$4.1\%$),其中 $33$-$67\%$ 的文档至少显示一个定向 3 周期; $\textbf{(2)}$ 将共形预测集分割为 1-5 个 Likert 分数,提供理论上保证的 $\geq(1{-}α)$ 覆盖范围,并将集合宽度用作每个实例的可靠性指标($r_s = {+}0.576$、$N{=}1{,}918$、$p < 10^{-100}$,汇集所有法官)。至关重要的是,预测集宽度显示出一致的跨评判一致性($\bar{r} = 0.32$-$0.38$),表明它捕获了文档级别的难度,而不是评判特定的噪音。在四位法官和四个标准中,两种诊断都趋于一致:标准比判断更重要,相关性判断最可靠(平均集合大小$\约3.0$),连贯性中等(平均集合大小$\约3.9$),而流畅性和一致性仍然不可靠(平均集合大小$\约4.9$)。我们发布所有代码、提示和缓存结果。

阅读原文 →