一个大发现!大型模型的“ AHA时刻”不是假装,
作者:bet356官网首页 发布时间:2025-07-06 08:58
中国人民大学的刘Yong是一位长期的副教授,医生的主管,也是全国高水平的人才。 He has been involved in basic research on the theory of machine studying for a long time, and has published more than 100 papers in total, with nearly 50 top journals and conference papers as first -set/set, covering the leading journals to study machine JMLR, Ieee tpami, artificial intellectual, top conference, Ieee tpami, artificial intellect, top conference, top conference icml, Neurips, etc. "Therefore ..." when solving problems.但是一个灵魂问题总是存在:这些词确实代表了模型的“思维”,还是它们添加到类似于人类的“表现”中的语言装饰?这是模型的“顿悟时刻”或纯粹的“烟雾”吗?伦敦伦敦埃里斯学院(UCL)和大里安技术大学在最新角色中首次使用“手术刀”信息理论,以准确地在大型模型中,在大型模型中,在大型模型中,大型模型中的大型模型中的大型模型中的大型模型中的大型模型在大型模型中为大型模型中的大型模型中的大型模型中的大型模型准确地传播了大型模型中的大型型号,以实现大型模型,以实现大型的大型模型,大型模型和大型模型大型模型。令人信服的答案:当出现“思考单词”时,有关正确回答大脑模型(其物物)的信息量突然突然下沉了几次!这并不意味着意外装饰,而是真正的“峰值信息”和“转弯决定”!凉爽的是,基于这一发现,研究人员提出了一种简单的方法,可以显着提高模型识别的性能而无需进一步培训,并且代码是开放的。我们的纸张标题:使用相互信息的推理动态神秘化:思考令牌是LLM推理纸链接中的信息峰值:https://arxiv.org/abs/2506.02867代码链接:https://github.com/chnq/chnq/mi-peaks core core core corecor Discoveri大型模型的“脑波”(隐藏的空间表示)在解决问题的情况下,例如DeepSeek -R1和QWQ蒸馏序列的模型,它们测量了“大脑”的每个步骤的相互信息(MI),以及最终的正确答案,并观察这些信息的变化不变。信息”!在一定步骤中,彼此之间的信息量突然显着下沉,形成了一个重要的“微信息峰”现象。这些峰值是WiDeSpread但批判性,以及突然在理解的黑暗道路上点燃的明显迹象!这是什么意思?直观地,这些信息的峰值点的表示,即模型大脑中的那一刻状态,包含更多指向正确答案的最关键信息!此外,研究人员通过理论分析(定理1 2)证明,信息高于推理过程的积累,模型最终答案的上限和下限。换句话说,正确答案的可能性更高!由于在评估模型(LRMS)中更经常看到互信息峰的现象,因此将向未产生的LLM显示出类似现象?为了探讨这个问题,研究人员选择了DeepSeek-R1迪斯蒂尔系列的模型,以及对实验推断的相应模型。如上图中的橙色线所示理解非转化模型的SS信息彼此经常显示出较小的波动,反映出明显的较弱的相互峰值现象,而彼此之间的信息量通常较小。它表明,在增强加强能力的能力之后,识别模型似乎已经折现了有关整个表示形式的正确答案的其他信息,另一方面,它散布在相互信息峰值现象的出现中!核心发现2:“词汇思维” =包含“ iMppeak”的语言。那么,什么样的语义信息包含此同伴信息的峰值点中的表示?惊讶的是,研究人员将这些“大脑的大脑”转化为“峰值信息”时刻,回到人们可以理解的语言中(这是词汇单词“:电影/暂停类型:“嗯”,“等等”,“等等” ...TS:“等等,让我不同。让我们暗示...,”“嗯,我应该在某个地方误会。让我仔细检查我的计算。首先,...“……”彼此之间的信息点,带来基本信息,并宣传语言的语言“思考图表”语言。印度是可选的装饰,但是信息的“外观”降低到语言水平,并且可以在推理路径上扮演基本标志或决策点的角色!为了验证这些令牌的批评,研究人员进行了一项干预实验,以防止推理时产生词汇思维。真正的验证:实验结果表明,避免产生词汇思维的产生将显着影响数学趋势数据集中的模型性能(例如GSM8K,Math,Aime24);相比之下,随机阻断相同数量的其他普通词汇的性能最小。它表明这些想法存在于信息的峰值彼此之间的词汇测试在有效的推理中起着重要的作用!令人惊讶的应用:如果没有训练,我们明智地使用“峰值”来提高理解的表现,并理解“峰值”和“词汇思维”的奥秘。研究人员提出了两种实用方法,以提高在没有进一步培训的情况下识别现有LRM的性能。应用程序1:表示回收的灵感(RR):由于MI峰值点的表示包含丰富的信息,为什么不让模型“咀嚼”并消化呢?过程:在模型的推理过程中,当注意到一个心态时,它并不急于立即输出它,而是在模型中重新输入其相应的表示形式,以进行附加的计算周期,从而使模型可以完全利用丰富的表示信息。影响:在许多数学推理基准(GSM8K,MATH500,AIME24)中,RR方法继续改善理解LRMS性能。例如,凭借压倒性的AIE24,DeepSeek-R1-Disti-dillama-8b的准确性有所提高20%!它表明,允许该模型使用整个高信息量“解释”表示形式可以有效地解锁其潜在识别。应用程序2:考虑基于令牌的测试 - 时间缩放-TTTS的启发:如果模型允许在推理过程中更多的令牌(增加计算预算),我们如何指导该模型执行更有效的“深思熟虑”而不是毫无目的地扩展?步骤:受到先前工作的启发,在作者完成理解的初始输出后,如果仍然有一个ANOG代币预算,该模型将迫使其从“词汇思维”开始(例如“词汇思维”(例如“因此”,“ SO”,“ SO”,“ SO”,“等待”,“ HMM”等),以继续对更深入的计算源进行深入的内容,以在其他计算中进行更深入的计算。影响:当代币预算上升时,TTT可以继续并稳定地提高模型推断的性能。如图所示,在GSM8K和Math500的数据集中,TTTS继续在同一代币预算下进一步发布原始模型。在AIE24数据集中,尽管原始模型的性能在早期阶段迅速提高,而当代币预算达到4096时,模型性能达到了瓶颈期。虽然TTTS指南下的模型的性能继续改善了代币的预算增加,并且在能够以6144为单位的预算后,原始模型已经超过了。总结显示了LRMS(MI Peak)中的动态机制,并了解了了解模型“黑匣子”的推理的经验基础。此外,研究人员发现,在这些信息的高潮中,彼此之间的表达是对应于表达思维和便秘的“代币思维”,并且通过干预实验,这些令牌对性能o具有重要影响。f推理。最后,受到对上述现象的理解和分析的启发,研究人员提出了两种简单有效的方法来改善LRMS性能,尤其是回收-RR和Token -Time -time缩放-TTTS以及基于范围。研究人员希望,这项工作可以为对PA机械的深入了解提供新的观点,并进一步提出了可能的解决方案,以进一步促进模型推理能力。
电话
020-66888888