📄 Deep Tech

ArXiv 最新

Iterative/ˈɪtərˌeɪtɪv/ Refinement/rəˈfaɪnmənt/ Improves/ˌɪmˈpruvz/ Compositional/ˌkɑmpəˈzɪʃənəl/ Image Generation/ˌʤɛnərˈeɪʃən/

Shantanu Jaiswal, Mihir Prabhudesai, Nikash Bhardwaj 2026-01-21 cs.CV | cs.AI

Text-to-image (T2I) models have achieved remarkable progress, yet they continue to struggle with complex prompts that require simultaneously handling multiple objects, relations, and attributes. Existing inference-time strategies, such as parallel sampling with verifiers or simply increasing denoisi...

查看中文翻译

文本到图像 (T2I) 模型已经取得了显着的进步,但它们仍然在处理需要同时处理多个对象、关系和属性的复杂提示。现有的推理时间策略,例如与验证器的并行采样或简单地增加去噪步骤,可以改善即时对齐,但对于必须满足许多约束的丰富组合设置仍然不够。受到大型语言模型中思想链推理成功的启发,我们提出了一种迭代测试时间策略,其中 T2I 模型在作为循环批评者的视觉语言模型的反馈的指导下,跨多个步骤逐步完善其生成。我们的方法很简单,不需要外部工具或先验知识,并且可以灵活地应用于各种图像生成器和视觉语言模型。根据经验,我们展示了跨基准图像生成的一致收益:与计算匹配的并行采样相比,ConceptMix (k=7) 的正确率提高了 16.9%,T2I-CompBench(3D 空间类别)提高了 13.8%,Visual Jenga 场景分解提高了 12.5%。除了定量收益之外,迭代细化通过将复杂的提示分解为顺序修正来产生更忠实的生成,对于并行基线,人类评估者在 58.7% 的情况下更喜欢我们的方法,而不是 41.3% 的情况。总之,这些发现强调了迭代自我校正作为构图图像生成的广泛适用的原则。结果和可视化可在 https://iterative-img-gen.github.io/ 获得

阅读原文 →

Rethinking/riˈθɪŋkɪŋ/ Video Generation/ˌʤɛnərˈeɪʃən/ Model for the Embodied/ɪmˈbɑdid/ World

Yufan Deng, Zilin Pan, Hongyu Zhang 2026-01-21 cs.CV | cs.AI

Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interact...

查看中文翻译

视频生成模型具有显着先进的体现智能,解锁了生成各种机器人数据的新可能性,这些数据可以捕获物理世界中的感知、推理和动作。然而,合成准确反映现实世界机器人交互的高质量视频仍然具有挑战性,并且缺乏标准化基准限制了公平比较和进步。为了解决这一差距,我们引入了一个全面的机器人基准测试 RBench,旨在评估跨五个任务域和四个不同实施例的面向机器人的视频生成。它通过可重复的子指标评估任务级别的正确性和视觉保真度,包括结构一致性、物理合理性和动作完整性。对 25 个代表性模型的评估凸显了在生成物理真实机器人行为方面的重大缺陷。此外,该基准与人类评估的 Spearman 相关系数达到 0.96,验证了其有效性。虽然 RBench 提供了识别这些缺陷的必要视角,但实现物理真实感需要超越评估,以解决高质量训练数据的严重短缺问题。在这些见解的驱动下,我们引入了一个完善的四阶段数据管道,从而产生了 RoVid-X,这是最大的视频生成开源机器人数据集,包含 400 万个带注释的视频剪辑,涵盖数千个任务,并丰富了全面的物理属性注释。总的来说,这个评估和数据的协同生态系统为视频模型的严格评估和可扩展训练奠定了坚实的基础,加速了嵌入式人工智能向通用智能的发展。

阅读原文 →

MolecularIQ:/moleculariq*/ Characterizing/ˈkɛrɪktərˌaɪzɪŋ/ Chemical/ˈkɛmɪkəl/ Reasoning/ˈrizənɪŋ/ Capabilities/ˌkeɪpəˈbɪlətiz/ Through Symbolic/sɪmˈbɑlɪk/ Verification/ˌvɛrəfəˈkeɪʃən/ on Molecular/məˈlɛkjələr/ Graphs

Christoph Bartmann, Johannes Schimunek, Mykyta Ielanskyi 2026-01-21 cs.LG | cs.AI

A molecule's properties are fundamentally determined by its composition and structure encoded in its molecular graph. Thus, reasoning about molecular properties requires the ability to parse and understand the molecular graph. Large Language Models (LLMs) are increasingly applied to chemistry, tackl...

查看中文翻译

分子的性质从根本上是由其分子图中编码的组成和结构决定的。因此,推理分子特性需要解析和理解分子图的能力。大型语言模型 (LLM) 越来越多地应用于化学,处理分子名称转换、字幕、文本引导生成以及性质或反应预测等任务。大多数现有基准强调一般化学知识,依赖于存在泄漏或偏见风险的文献或替代标签,或减少对多项选择题的评估。我们推出 MolecularIQ,一种分子结构推理基准,专门专注于符号可验证的任务。 MolecularIQ 能够对分子图推理进行细粒度评估,并揭示将模型故障定位到特定任务和分子结构的能力模式。这为当前化学法学硕士的优势和局限性提供了可行的见解,并指导了忠实推理分子结构的模型的开发。

阅读原文 →