📄 Deep Tech

ArXiv 最新

Neuron Populations/ˌpɑpjəˈleɪʃənz/ Exhibit Divergent/dɪˈvərʤənt/ Selectivity/sɪˌlɛkˈtɪvəti/ with Scale

Amil Dravid, Yasaman Bahri, Alexei A. Efros 2026-06-02 cs.LG | cs.CL

We investigate whether neuron populations within neural networks evolve predictably with scale, extending scaling laws beyond macroscopic observables such as loss. To probe this question, we study Rosetta Neurons, a previously characterized class of neurons whose activation patterns are similar acro...

查看中文翻译

我们研究神经网络中的神经元群体是否随规模可预测地演化,将尺度法则扩展到宏观可观察的范围之外,例如损失。为了探讨这个问题,我们研究了 Rosetta Neurons,这是一类先前表征的神经元,其激活模式在独立训练的模型中是相似的(Dravid 等人,2023)。在对多达 30B 个参数的语言模型和多达 5B 个参数的视觉模型的单独分析中,我们观察到 Rosetta 神经元群体在模型大小方面遵循次线性幂律,绝对数量不断增长,但占神经元总数的比例不断缩小。我们进一步观察到神经元极化效应:随着规模的扩大,Rosetta 神经元变得更具选择性,并且越来越单一语义,与不断增长的选择性较低的非 Rosetta 群体分开。平衡特征效用与有限神经元容量的分析模型解释了次线性幂律缩放和这种极化效应。最后,我们发现 Rosetta Neurons 在规模上变得更加专业化,并通过持续预训练的有针对性的数据过滤案例研究说明了它们的选择性。我们的结果指出了可解释的、共享的神经元级结构的尺度法则,将模型大小与神经元普遍性、选择性和专业化的系统变化联系起来。

阅读原文 →

Imaginative/ˌɪˈmæʤənətɪv/ Perception/pərˈsɛpʃən/ Tokens Enhance Spatial Reasoning/ˈrizənɪŋ/ in Multimodal/multimodal*/ Language/ˈlæŋgwɪʤ/ Models

Mahtab Bigverdi, Lindsey Li, Weikai Huang 2026-06-02 cs.AI

Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical information is not directly observable. Many such problems require imaginative perception: inferring what would be seen from an unseen viewpoint, tracing paths through occluded spaces, or integr...

查看中文翻译

视觉语言模型(VLM)在许多任务上表现出色,但当关键信息无法直接观察时,仍然难以进行空间推理。许多此类问题需要富有想象力的感知:推断从看不见的视点会看到什么,追踪穿过封闭空间的路径,或者将部分观察结果整合到连贯的空间表示中。我们引入了想象力感知令牌(IPT),这是一种中间感知表示,可以将 VLM 在替代空间配置下感知的内容具体化,同时与观察到的输入保持一致。 为了研究这种能力,我们制定了三项任务:视角采择 (PET)、路径追踪 (PT) 和多视图计数 (MVC),并构建了包含大约 20K 个示例的数据集,其中包含真实的想象、答案和评估基准。使用统一的 VLM BAGEL 作为骨干,IPT 监督持续改进空间推理,并且通常优于文本思维链训练,即使在推理时不生成图像。在MVC上,IPT将准确率提高了3.4%,并在PT上实现了与强大的闭源模型竞争的性能。我们进一步发现,将 IPT 和仅标签监督相结合会产生额外的收益,而文本思想链会大大降低性能,这表明当通过语言强制进行空间计算时会出现模态不匹配。总的来说,IPT 提供了一个有原则的监督信号,用于推理未观察到的空间结构,提高泛化能力,同时产生可解释的中间表示。

阅读原文 →

Humanoid-GPT:/humanoidgpt*/ Scaling Data and Structure/ˈstrəkʧər/ for Zero-Shot/zeroshot*/ Motion Tracking/ˈtrækɪŋ/

Zekun Qi, Xuchuan Chen, Dairu Liu 2026-06-02 cs.RO | cs.AI

We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus ...

查看中文翻译

我们引入了 Humanoid-GPT,这是一种 GPT 风格的 Transformer,其因果注意力在十亿规模的运动语料库上进行训练,用于全身控制。与之前受稀缺数据和敏捷性泛化权衡限制的浅层 MLP 跟踪器不同,Humanoid-GPT 在 2B 帧重定向语料库上进行预训练,该语料库将所有主要动作捕捉数据集与大规模内部录音统一起来。扩展数据和模型容量会产生一个单一的生成 Transformer,它可以跟踪高度动态的行为,同时实现对看不见的运动和控制任务的前所未有的零样本泛化。大量的实验和扩展分析表明,我们的模型建立了一个新的性能前沿,展示了对未见过的任务的稳健的零样本泛化,同时跟踪高度动态和复杂的运动。

阅读原文 →