📄 Deep Tech

ArXiv 最新

RoboPocket:/robopocket*/ Improve Robot Policies/ˈpɑləsiz/ Instantly/ˈɪnstəntli/ with Your Phone

Junjie Fang, Wendi Chen, Han Xue 2026-03-05 cs.RO | cs.AI

Scaling imitation learning is fundamentally constrained by the efficiency of data collection. While handheld interfaces have emerged as a scalable solution for in-the-wild data acquisition, they predominantly operate in an open-loop manner: operators blindly collect demonstrations without knowing th...

查看中文翻译

模仿学习的规模化从根本上受到数据收集效率的限制。虽然手持界面已成为野外数据采集的可扩展解决方案,但它们主要以开环方式运行:操作员在不了解底层策略弱点的情况下盲目收集演示,导致关键状态分布的覆盖效率低下。相反,像 DAgger 这样的交互式方法可​​以有效地解决协变量偏移问题,但依赖于物理机器人执行,这种方法成本高昂且难以扩展。为了协调这种权衡,我们引入了 RoboPocket,这是一种便携式系统,可以使用单个消费者智能手机实现无机器人即时策略迭代。其核心创新是远程推理框架,通过增强现实 (AR) 视觉前瞻可视化政策的预测轨迹。这种身临其境的反馈使收集者能够主动识别潜在的故障,并将数据收集集中在策略的薄弱区域,而无需物理机器人。此外,我们还实现了一个异步在线微调管道,可以使用传入数据不断更新策略,从而在几分钟内有效地关闭学习循环。大量实验表明,RoboPocket遵循数据扩展规律,与离线扩展策略相比,数据效率提高了一倍,克服了长期存在的效率瓶颈。此外,我们的即时迭代循环还在分布式环境中将样本效率提高了高达 2$\times$,每人进行少量的交互式校正。项目页面和视频:https://robo-pocket.github.io。

阅读原文 →

POET-X: Memory-efficient/memoryefficient*/ LLM Training/ˈtreɪnɪŋ/ by Scaling Orthogonal/ɔrˈθɔgənəl/ Transformation/ˌtrænsfərˈmeɪʃən/

Zeju Qiu, Lixin Liu, Adrian Weller 2026-03-05 cs.LG | cs.AI

Efficient and stable training of large language models (LLMs) remains a core challenge in modern machine learning systems. To address this challenge, Reparameterized Orthogonal Equivalence Training (POET), a spectrum-preserving framework that optimizes each weight matrix through orthogonal equivalen...

查看中文翻译

高效稳定的大型语言模型(LLM)训练仍然是现代机器学习系统的核心挑战。为了应对这一挑战,人们提出了重新参数化正交等价训练(POET),这是一种通过正交等价变换优化每个权重矩阵的频谱保留框架。尽管 POET 提供了强大的训练稳定性,但其原始实现由于密集的矩阵乘法而导致较高的内存消耗和计算开销。为了克服这些限制,我们引入了 POET-X,这是一种可扩展且内存高效的变体,可以执行正交等价变换,同时显着降低计算成本。 POET-X 保持了 POET 的通用性和稳定性优势,同时在吞吐量和内存效率方面实现了大幅改进。在我们的实验中,POET-X 可以在单个 Nvidia H100 GPU 上预训练十亿参数的 LLM,相比之下,AdamW 等标准优化器在相同设置下会耗尽内存。

阅读原文 →

The Spike, the Sparse and the Sink: Anatomy of Massive Activations/activations*/ and Attention/əˈtɛnʃən/ Sinks

Shangwen Sun, Alfredo Canziani, Yann LeCun 2026-03-05 cs.AI | cs.CL

We study two recurring phenomena in Transformer language models: massive activations, in which a small number of tokens exhibit extreme outliers in a few channels, and attention sinks, in which certain tokens attract disproportionate attention mass regardless of semantic relevance. Prior work observ...

查看中文翻译

我们研究 Transformer 语言模型中的两种反复出现的现象:大规模激活(其中少量标记在少数通道中表现出极端异常值)和注意力沉降(其中某些标记无论语义相关性如何都会吸引不成比例的注意力)。先前的研究发现,这些现象经常同时发生,并且经常涉及相同的标记,但它们的功能作用和因果关系仍不清楚。通过系统的实验,我们表明,共现很大程度上是现代 Transformer 设计的建筑产物,并且这两种现象具有相关但不同的功能。大规模激活在全局范围内运行:它们引起跨层持续存在的近乎恒定的隐藏表示,有效地充当模型的隐式参数。注意力接收器在本地运行:它们调节各个头部的注意力输出,并使各个头部偏向于短程依赖性。我们将预规范配置确定为实现共现的关键选择,并表明消除它会导致两种现象解耦。

阅读原文 →