你有没有想过:DeepSeek-R1 这类大型推理模型是如何自主学会思考的?亿财配资
为寻找这一问题的答案,中国科学院理论物理研究所陈锟副研究员团队与合作者对 DeepSeek 强化学习算法的动力学机制展开深入研究。他们发现,在单个训练样本的条件下,该算法导致的涌现行为可以用复杂网络中的相变现象来精准描述。
基于这一重要发现,他们提出了“临界学习”(LaC,Learning at Criticality)的理论框架,其核心思想是:通过强化学习的优化机制,将大模型参数调整到一个关键的临界状态,当模型处于这个临界态时,能够从极少量的训练数据中实现最佳的泛化性能。不仅能从极少量学习样本中抽象出通用算法规则,甚至仅凭单个示例即可实现复杂数学运算和量子场论中的符号推导等高阶认知任务。
传统 AI 方法从海量多样化问题中学习,以保持泛化能力和发现不同问题之间的共性。与之不同的是,LaC 方法模拟了人类专家在专业领域的研究范式——通过深度聚焦单个复杂问题,经历反复的思考与试错过程来获得突破性解决方案。
“临界学习”方法的创新性主要体现在突破传统 AI 在基础科学领域的三大局限:首先,解决了数据稀缺条件下的学习效率问题;其次,克服了高度专业化知识获取的障碍;最后,实现了小样本情况下的深度专业化学习,这一点对于数据稀缺的基础科学研究尤为重要。
陈锟对 DeepTech 表示:“传统 AI 方法往往受限于数据规模,LaC 为应对理论物理、数学证明、材料设计等领域中复杂且数据稀疏的挑战提供了新的 AI 解决方案。未来,随着 LaC 理论的进一步完善,它有可能不局限于优化 AI 的推理能力,更有望为理解大模型中复杂推理能力的涌现机制提供新的理论工具。”
同时,该方法在基础科学中的应用或将催生新的研究模式,有助于推动 AI 研究范式从作为辅助工具的 AI for Science 逐步演变为“自主探索科学问题的智能体”,从而真正实现 AI for Fundamental Science。
近日,相关论文以《大型推理模型的临界态学习及其在量子场论等领域中的应用》(Learning-at-Criticality in Large Language Models for Quantum Field Theory and Beyond)为题发表在预印本网站arXiv上 [1]。
中国科学院理论物理研究所博士后蔡贤盛和中国科学技术大学胡思寒博士生是共同第一作者,美国麻省大学阿默斯特分校王韬博士、深势科技黄远博士、中国科学院理论物理研究所张潘研究员、中国科学技术大学邓友金教授以及中国科学院理论物理研究所陈锟副研究员担任共同通讯作者。
今年 1 月,随着 DeepSeek 发布其推理模型 DeepSeek-R1 并在全球引发广泛关注,长期专注于多电子场论研究的陈锟团队敏锐地注意到一个关键科学问题:与传统 AI 系统(如 Alpha Zero 依赖人工设计的蒙特卡洛树搜索)不同,DeepSeek 模型展现出自发形成推理式思考模式的能力。这一现象激发了团队的研究兴趣——DeepSeek 是如何自主学会思考的?
陈锟解释说道:“作为物理研究者,我们对这种涌现现象特别敏感,这让我联想到可以尝试用统计物理的理论框架来解析这一过程。”
在研究过程中,团队通过分析模型的推理模式,提出了一个关键假设:DeepSeek 背后可能存在一个简约而普适的物理模型。他们发现,当模型学习单一问题时,其自发涌现过程表现为典型的临界物理现象特征,类似于水-水蒸气的相变过程。然而,由于实际训练涉及多问题场景,其涌现模式又呈现出更复杂的特征。
发现这一有趣的现象后,研究团队继续思考:这样的物理现象与传统的机器学习方法有何本质区别?他们逐渐意识到亿财配资,这可能代表了一种全新的、将 AI 应用于科学研究的范式,有望为解决基础科学中需要深度思考的问题提供新思路。
这一推理能力相变的理论,来源于陈锟团队对于模型如何学习多位数加法问题的深入研究。团队首先选择 7 进制多位数加法(7 位数)作为测试基准。实验显示,未经训练的 Qwen2.5-7B 模型完全不具备解决该问题的能力,但通过基于单样本的强化学习训练后,模型最终能够以接近 100% 的准确率解决这一样本问题,其学习曲线并不是随着训练步骤线性增加,而是在一定训练步骤后出现跃升的相变行为。
进一步实验发现,相变点附近的模型虽然对于训练样本的准确率尚未达到峰值,但是模型在其他多位数加法问题上,由于模型发展出批判性思维特征,反而表现出最强的泛化能力。
这表明,大模型在临界点运行时达到最优性能平衡:既能保持探索的灵活性,又能提取底层操作规则;而过度的训练反而会使模型思维僵化,丧失批判性思考能力。
基于这些发现,研究团队从模型推理的细节入手,构建起一套独特的理论框架。该理论来自一个有趣的观察,当大模型回答例如“12+98=?”这类问题时,标准的推理过程会逐个输出 token,而这其中“暗藏玄机”:有些词的出现几乎是必然的,比如回答中“结果”前大概率是“正确的”;而有些词则充满不确定性,如“结果”后接“of”还是“in”,模型会陷入短暂的“纠结”。
团队将这些充满不确定性的 token 位置定义为“决策点”,确定性 token 序列抽象为“概念”(Concept),并通过决策点间的关联构成“概念网络”(CoNet),以此建模大模型思考过程中的决策空间。
在该理论中,大模型长思维链中的抽象推理(System 2)过程对应于概念网络中的随机行走(如上图左):模型从问题语境出发,通过探索网络路径最终抵达答案。其中,路径选择的概率分布至关重要:过于均匀的分布导致思维发散难以收敛,而过度确定的分布则易陷入局部最优。
研究人员发现,DeepSeek 的 GRPO 强化学习算法和其变种,正是通过调节每条路径的概率,使得网络处于一个中间态。如果通过单个学习样本训练,这一中间态处在一个连续相变点附近,表现出临界行为;如思考的路径长度呈幂律分布(P(L)∼L⁻⁰·¹⁶),模型兼具“寻找最短路径”的高效性与“探索多样路径”的灵活性,这种状态下的模型泛化能力最强。这种无标度使得模型同时发现高效路径与备选策略,是“临界思考模式”的物理基础。
陈锟表示,临界学习的方法深受物理启发。就像当物理学者面对复杂问题时,通常会先将其简化为“真空球形鸡”理想模型。这种从简化模型出发,再逐步扩展到复杂系统的研究路径,为理解大模型的认知机制提供了全新的方法论视角。
研究团队从简化模型反推真实大模型,也发现了相似的相变行为,由此提出“临界学习”方法:通过单个训例把网络训练到临界态,能够在数据极度稀缺的情况下,实现具有泛化能力复杂长思维链推理的学习。
在 DeepSeek-R1 671B 模型发布后,研究团队系统评估了其在理论物理领域的能力表现,发现其水平相当于高年级本科生至中低年级研究生,但对更复杂问题仍存在局限。这促使他们思考,或许可以借鉴培养研究生的方法——通过深度思考逐步攻克复杂问题。
基于此,研究团队选择在理论物理中的典型问题——计算高阶不同圈的费曼图进行 LaC 的效果验证。他们利用 80 亿参数的 Qwen3-8B 模型,分阶段训练其求解松原频率求和问题。
值得关注的是,仅通过低阶图例进行临界点训练,模型可成功推导出未见过的高阶图解,其表现甚至优于参数量高两个数量级的基准模型。
数据显示,经过 LaC 训练的模型在 1-loop 和 2-loop 图上的准确率分别达到 97.5% 和 56.9%,并能泛化至 3-loop 和 4-loop 问题,而未经训练的基准模型在这些任务上表现不佳。
当前 AI 系统面临的关键瓶颈在于其静态的知识体系架构,这与人类持续进化的终身学习能力形成鲜明对比。要实现类似人类的知识迭代机制,AI 系统需要发展出“增量学习”能力,即通过持续的环境交互积累数据并动态优化模型参数。然而,这种学习模式本质上受制于数据稀缺问题,这使得基于 LaC 的小样本学习技术成为突破这一困境的关键所在。
在科学应用层面,LaC 方法对基础科学的推动体现在多个方面。以化学研究为例,专注特定反应数十年的实验室积累了极其专业化的知识体系,这类深度知识往往超出通用大模型的掌握范围。针对这种情况,采用 LaC 基学习策略展现出显著优势:通过让模型集中攻克领域核心问题,在确保专业知识深度的同时保持必要的泛化能力。
传统研究模式下,博士生通常需要投入半年至一年时间才能掌握前沿场论问题的两圈费曼图(2-loop Feynman diagrams)的解析计算方法,而当问题复杂度提升至三圈图(3-loop Feynman diagrams)时,人工计算几乎不可行。历史上,量子电动力学三圈散射图的解析计算曾耗费学界数十年时间,而这类问题恰恰是 AI 技术可以“大显身手”的领域。
虽然 AI 在学习高圈费曼图时同样面临严峻挑战,然而一旦突破这一专业瓶颈,就可能展现出强大的知识迁移能力,解决因人类认知局限而长期停滞的科学难题。通过这种专业化深度与泛化广度的有机结合,AI 系统有望发展成为突破人类认知边界的“专业智能体”。
“在研究 DeepSeek 强化学习算法的过程中,我们发现这是一个极具科学价值的探索方向。我们希望能利用在相变等多体统计物理等方面的专业积累,深入解析这一现象背后的物理机制。”陈锟说。
基于这一目标,研究团队确立了双向研究路径:Physics for AI(运用物理学原理理解 AI)和 AI for Physics(运用 AI 技术推动物理学发展)。
在 Physics for AI 方向,团队目前已完成第一阶段工作,即通过单个问题的问答学习研究相关物理现象。后续研究计划深入探讨更复杂的科学问题:在多问题学习场景下,模型的网络结构会呈现怎样的动力学特征?是否仍然存在临界物理现象?对这些机制的深入理解,不仅可能为强化学习算法的优化设计提供理论指导,还有助于评估现有算法的性能上限。
在 AI for Physics 方向,团队采取的策略是将开源大模型视为“科研新生”,通过针对理论物理等特定领域的强化训练,系统探索将其培养成为专业科研助手的可行性。这一研究思路既借鉴了人类专家的培养模式,又充分发挥了 AI 在数据处理和模式识别方面的独特优势,为科研范式的革新提供了新的可能性。
参考资料:
1.https://arxiv.org/abs/2506.03703
运营/排版:何晨龙
天载配资提示:文章来自网络,不代表本站观点。