Neuron Populations/ˌpɑpjəˈleɪʃənz/ Exhibit Divergent/dɪˈvərʤənt/ Selectivity/sɪˌlɛkˈtɪvəti/ with Scale
We investigate whether neuron populations within neural networks evolve predictably with scale, extending scaling laws beyond macroscopic observables such as loss. To probe this question, we study Rosetta Neurons, a previously characterized class of neurons whose activation patterns are similar acro...
查看中文翻译
我们研究神经网络中的神经元群体是否随规模可预测地演化,将尺度法则扩展到宏观可观察的范围之外,例如损失。为了探讨这个问题,我们研究了 Rosetta Neurons,这是一类先前表征的神经元,其激活模式在独立训练的模型中是相似的(Dravid 等人,2023)。在对多达 30B 个参数的语言模型和多达 5B 个参数的视觉模型的单独分析中,我们观察到 Rosetta 神经元群体在模型大小方面遵循次线性幂律,绝对数量不断增长,但占神经元总数的比例不断缩小。我们进一步观察到神经元极化效应:随着规模的扩大,Rosetta 神经元变得更具选择性,并且越来越单一语义,与不断增长的选择性较低的非 Rosetta 群体分开。平衡特征效用与有限神经元容量的分析模型解释了次线性幂律缩放和这种极化效应。最后,我们发现 Rosetta Neurons 在规模上变得更加专业化,并通过持续预训练的有针对性的数据过滤案例研究说明了它们的选择性。我们的结果指出了可解释的、共享的神经元级结构的尺度法则,将模型大小与神经元普遍性、选择性和专业化的系统变化联系起来。