陈丹琦:解码语言,塑造未来

陈丹琦,毕业于雅礼中学311班。普林斯顿大学计算机副教授,普林斯顿NLP小组负责人。
2008年获国际信息学奥林匹克竞赛(I0I)金牌,提出CDQ分治算法。2012年毕业于清华大学计算机科学实验班,2018年在斯坦福大学获得计算机科学博士学位,导师为自然语言处理(NLP)泰斗Christopher Manning。曾获斯坦福大学Arthur Samuel最佳博士论文奖,被MIT Technology Review(《麻省理工科技评论》)列为 2019 年度中国“35 innovators under 35”(35岁以下科技创新35人)。2022年获“诺奖风向标”之称的斯隆研究奖。2025年加入Thinking Machines Lab。
她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。
PART1

最新成果


最近,陈丹琦在普林斯顿大学的团队发布了最新学术成果,表明了RLVR范式在可验证领域之外依然有效,提出了基于模型奖励思维的强化学习(RLMT)方法,它将显式的思维链推理融入通用聊天模型之中。

大型语言模型传统上遵循一种多阶段训练范式:首先在大规模文本语料上进行预训练,然后通过监督微调来学习指令跟随,最后借助强化学习对齐人类偏好。这种方法催生了功能强大的对话式 AI 系统,但仍存在一个关键局限:
在数学、编程等领域通过可验证奖励的强化学习(RLVR)所获得的推理能力,并不能有效迁移到通用对话任务上。
本文介绍了基于模型奖励的思维强化学习(RLMT)方法,它弥合了专门推理能力与通用对话能力之间的差距。该方法使语言模型能够在开放式任务中进行显式的思考过程,将链式思维的优势从可验证领域扩展到更广泛的范围,从而提升整体对话表现。

使用基于奖励模型的强化学习,在多样化的、通用的用户提示上训练具备长链式思维的语言模型。与RLHF相比,RLMT让模型能够进行思考,并且将 RLVR扩展到了更广泛的、开放式任务之中。
当前的大语言模型训练面临一个根本性的两难局面。像DeepSeek-R1所采用的RLVR方法,在数学推理和代码生成等领域表现突出。然而,这类专门化的推理技能难以推广到日常对话中多样化、主观性强的任务场景里。
与之相对,RLHF(基于人类反馈的强化学习)在对齐模型与人类偏好、提升通用对话能力方面非常成功,但它将模型输出视为一个整体,导致模型要么能在窄域内进行出色的推理,要么能在广域中进行自然对话,但难以同时兼顾两种能力。
RLMT(基于模型奖励的思维强化学习) 的动机来源于一个关键观察:人类在处理开放式对话任务时,自然而然会进行审慎思考 —— 包括规划、权衡不同可能性、不断修正回答。若能让语言模型也采用类似的显式推理过程,就可能在保持基于偏好的对齐优势的同时,显著提升其在通用对话基准上的表现。

由使用 RLMT 训练的语言模型在开放式问题上生成的推理轨迹示例。
RLMT 方法: RLHF 与 RLVR 结合
优化目标
尽管最新的 RLVR 模型在形式化领域中表现出色,但它们在更广泛的推理问题和聊天基准测试中的泛化能力有限。与此同时,规划与推理确实有助于人类完成各种日常任务。
研究团队提出模型奖励思维强化学习(RLMT),以在开放式任务上施加广泛监督。RLMT 通过以下目标函数来优化语言模型:

如公式所示,RLMT 要求语言模型在生成最终回答 y 之前,先生成推理轨迹 z。这与 RLHF 不同;同时,RLMT 使用奖励模型 r 来对回答进行评分,而不像 RLVR 那样依赖基于规则的验证。
训练方法
由于当前使用的语言模型并不会自然采用所需的思维格式,因此研究团队尝试了两种方法来引导这一行为:
1、通过有监督微调(SFT)进行热启动;
2、直接对基础模型进行提示而不经过 SFT(即 DeepSeek-AI (2025) 提出的 「Zero」 方法)。
通过 SFT 热启动。首先通过有监督微调(SFT)来教授模型所需的思维格式。
结果:思维有利于开放式推理

基于 GRPO 的实验结果
实验比较了在Llama-3.1-8B 和 Qwen2.5-7B上进行热启动 与 zero 训练的模型。表中展示了是否启用「思维」,其中 ✓ 表示 RLMT 模型,× 表示 RLHF 模型。
启用思维的模型在表现上优于非思维基线模型,尤其是在聊天和创意写作任务上。

表 2:将 Llama-3.1-8B-InstructRLMT 与强大的开源和闭源模型进行比较,包括 GPT-4o 和 Claude-3.7-Sonnet。

DPO/PPO 在 warm-start 和 zero training 设置下的结果。
表中可以看到,Warm-start + RLMT 在 DPO/PPO 下依然有效,但整体落后于 GRPO;而在 Zero training 设置下,DPO 和 PPO 相比 GRPO 效果明显不足。
RL 训练如何改变模型行为
研究团队分析思维模型(thinking models)在聊天基准测试上表现优异的原因。结果发现:
SFT 模型的思维过程往往从分层规划开始(先列大纲、分小节、用 checklist 进行规划)。
RLMT 模型则更倾向于先列出约束条件和相关子主题,再将想法归为主题组,最后才规划具体细节。
规划风格上,SFT 模型是线性的,而 RLMT 模型是迭代式的:会回头修订之前的部分,比如交叉引用已提及的观点。

左图:展示了 SFT 模型与 GRPO 模型在不同思维特征上的逐项对比胜率。红色表示该特征在经过 GRPO 训练后减弱,绿色表示该特征增强。
右图:给出了一段推理行为示例。当被要求撰写一个推文串时,模型首先梳理出题目要求的各种约束条件,然后规划推文的整体展开顺序。接着,它会通过 checklist 对全局进行检查,并标注出需要修正之处,最后才生成最终输出。
总结
RLMT 成功地将显式推理的优势从专业化领域扩展到通用对话式人工智能,在保持计算效率的同时实现了显著的性能提升。该方法在不同模型架构、训练算法和评测基准上的有效性,表明它具有广泛的适用性,并有潜力重塑我们对语言模型训练的方式。通过让模型「先思考再表达」,RLMT 代表着迈向更智能、更强大的对话式人工智能系统的重要一步。
PART2

学术历程


陈丹琦的学术生涯以扎实的理论根基和解决重大实际问题的能力著称,其影响力贯穿算法、自然语言处理与机器学习等多个领域。
早期奠基
陈丹琦的学术天赋早在高中时期便有所崭露。2008年,她提出的“CDQ分治”算法解决了基于分治思想的离线算法问题,极大地降低了问题的复杂度。这一算法在竞赛圈和学术界广为流传与应用,成为她最早的“名片”。同年,她凭借扎实的功底斩获第20届国际信息学奥林匹克竞赛(IOI)金牌,为其后续的科研道路奠定了坚实的算法与逻辑基础。
持续耕耘
在斯坦福大学攻读博士期间,陈丹琦在导师Christopher Manning的指导下,产出了多项对自然语言处理领域影响深远的工作。
她作为第一作者发表的《Reading Wikipedia to Answer Open-Domain Questions 》提出了 DrQA系统,这是一个里程碑式的工作。它开创性地将基于信息检索的文档获取与基于神经网络的机器阅读结合,奠定了开放域问答任务的基本框架,极大地推动了该领域的发展。
她的博士论文《Neural Reading Comprehension and Beyond》 是NLP领域的奠基性文献之一,获得了斯坦福 Computer Science 的最佳博士论文奖(Arthur Samuel Best Doctoral Thesis Award)。上传仅四天就有上千次的阅读量,成为了斯坦福大学近十年来最热门毕业论文之一。
独立领导
博士毕业后她在普林斯顿大学任教,担任副教授,共同创立并领导Princeton NLP Group。在理论强校普林斯顿,她成功从零开始建立并领导了一个世界级的NLP研究团队,展现了卓越的学术领导力。
2022年,她荣获素有“诺奖风向标”之称的斯隆研究奖,这标志着其作为年轻科学家的卓越潜力获得了顶级认可。
2023年-2024年陈丹琦团队为提升语言模型的能力与可靠性,开发了一系列高效、可解释且安全的基础方法和技术。
2025年,她和团队发布最新学术成果《Language Models that Think, Chat Better》,将显式的思维链推理融入通用聊天模型之中。
同年,她加入由前OpenAI首席技术官米拉・穆拉蒂等人创立的人工智能研究公司Thinking Machines Lab。该公司专注开发可定制化、用户友好且安全的多模态AI系统。成立6个月即完成20亿美元种子轮融资,创下历史上规模最大的种子轮融资记录,公司估值达100亿美元。
截至目前,她的论文被引用次数超过7万次。她和团队持续在自然语言理解、知识表示与推理、信息抽取等核心方向深耕,关注如何让机器模型像人类一样进行持续学习与有效推理,并致力于构建更高效、更可信的NLP系统。
PART3

信竞之路


从数学到信息学:竞赛缘起
陈丹琦小学三年级开始便与数学竞赛结缘,对数学十分痴迷。陈丹琦的父亲是数学系老师,在陈丹琦很小的时候,他就发现女儿对数字很敏感,做题的速度、反应以及考虑问题的全面性都显得比同龄的孩子强。他有意识地培养她的学习兴趣,训练她的思维方式。有了这样一位好的启蒙老师,陈丹琦也充分发挥了自己的数学天赋。小学三年级就开始学奥赛,初一参加全国的初中数学联赛,得了湖南赛区二等奖,初三又再接再厉得了数学特等奖。家庭的熏陶,如同埋下一粒种子,很早就点燃了她对数学的痴迷与热爱。
陈丹琦初三时凭借数学竞赛的优异成绩保送雅礼中学。就在这时,雅礼信息学金牌教练朱全民老师向她发出邀请,问她是否愿意接触信息学竞赛。
初三下学期她开始参与信息学竞赛集训。起步时,她与已有基础的同学存在差距,但凭借一个暑假的集中攻坚和大量练习,她迅速追赶了上来。“我觉得数学和信息学的思维是相通的,数学的基础让我有信心在信息学上也取得好成绩。”综合考虑雅礼在信息学竞赛上系统化的培养优势以及个人精力分配,她最终选择在信息学这片新天地里深耕下去。
用班主任老师郑理安的一句话概括:陈丹琦是天才+追求+扎实,全面发展,学玩分明。
提到自己的兴趣,她亲和又带着几分俏皮“我喜欢看电影和动画,《柯南》《功夫熊猫》都很爱,也常听流行歌曲,几乎所有新歌我都能哼上几句。”她擅长行书,平时解题大脑高速运转后,写写毛笔字就成了她调剂精神的方式。

CDQ分治算法:好奇心+不断积累
“CDQ分治算法”是一种基于分治思想的算法,主要用于解决与点对相关的问题、优化一维动态规划的转移以及将动态问题转化为静态问题,名称来源于陈丹琦的名字缩写。
提及“CDQ分治”,她谦逊地表示,自己并不认为这算是由她“提出”的算法。她回忆,最初自己并未给这种方法命名,一位集训队队员在文章中将其命名为“CDQ分治”,这个称呼才逐渐流传开来。
有人问她,如何发现那些还没被系统引入竞赛、自己又感兴趣的内容?
“其实并没有一个很准确的答案。主要是出于好奇心——我对很多问题都想去寻找解法,并没想过它们后来会受欢迎。只要我对某个问题感兴趣,就会尝试去总结出一套系统的解法。”
回顾她的学习之路,“大量做题”是她深入这些领域的主要途径。在与同伴们互相出题、共同研讨的氛围里,“如何解题”成为了他们自觉的思考。她认为,这个过程其实与科学研究异曲同工,只不过竞赛题是预设答案的挑战,而科研面对的则可能是没有答案的旷野。她有一个核心习惯,不断追问:不同问题间是否存在通用的底层逻辑?一个解法能否进行有效的迁移应用?这一切能力的养成,源于在日复一日的解题实践中,将遇到的问题悉心记录、沉淀反思,最终化为了自然而深厚的底蕴。
除此之外,陈丹琦还善于总结,爱好写作。“我觉得写作不仅是去帮助别人,更多也是一个帮我自己去把思路整理出来的过程。写 paper 也是一样的道理。”

IOI金牌:来自国际的认可
陈丹琦毕业于雅礼中学311班。在雅礼就读时期,她参加了信息学竞赛培训,并成功入选信息学国家队。在国家队集训期间,她发明了插头DP,主要用于解决数据规模小的棋盘模型路径问题。
2008年,第20届国际信息学奥林匹克竞赛在埃及开罗举行,来自86个国家的300多名选手参加了本次竞赛。经过两轮比赛,中国队4名选手的总成绩居各参赛队之首,其中陈丹琦获金牌第13名,并荣获由国际信息处理学会(IFIP)颁发的特别奖,成为湖南省第一位获得信息学国际奥赛金牌的女选手。陈丹琦的指导老师朱全民也以来宾身份参与了此次竞赛。
“回想2008年参加IOI,那年特别巧,正好是北京奥运会。能在那个时候代表中国出去比赛,心里觉得特别开心和荣幸。我印象特别深的一个画面是,在埃及看比赛转播时,一些埃及朋友知道我们来自中国后,都特别友好地对我们竖起大拇指。在异国他乡感受到这种认可,那种感觉真的很好。”

左三:陈丹琦

左二:陈丹琦

陈丹琦与教练朱全民
斯坦福与普林斯顿:在精深中开拓
谈及斯坦福和普林斯顿的差异,她坦言选择斯坦福时,还不太确定自己要做什么研究方向,后来加入研究小组才慢慢定下来方向。而选择普林斯顿,则更多是出于个人发展的考虑。
普林斯顿计算机系是一个理论根基非常扎实的地方,系里做机器学习的教授基本都是新招聘的。“这对我来说是一个机会——我可以在这里从头建立起自己的研究团队。相比于加入一个已经成熟的NLP团队成为其中一员,在普林斯顿独立开拓更是一种成长和担当,这是我更看重的。”
普林斯顿计算机系规模较小,学术氛围纯粹,让她能更专注于思考一些更根本的问题。同时学校距离纽约以及业界实验室也较近。在学校里,每个人都需要独当一面,不同方向的教授之间、甚至跨系合作都更容易开展。

给学弟学妹的建议
1、打好基础,尽可能多学
真正有价值的是做出让自己有成就感的工作。扎实的基本功是应对未来任何变化的最好准备。这个世界变化是很快的,你无法预测这个世界接下来怎么发展,所以要尽可能多学,尽可能拓宽知识面。
2、拓宽视野,主动交流
建议多主动接触不同背景和领域的人,了解他们的思维方式和关注的问题。避免只停留在熟悉的圈子里,多元的交流能帮你找到自己的位置,看清前沿方向。
3、坚持本心,不盲目跟风
要有自己的品味,不要因为大家都在做就盲目跟风。真正让人记住的是那些有深度、能推动领域发展的研究。
4、保持热爱,勇于尝试
首先要热爱你做的事情。但热爱不一定是天生的,很多东西需要尝试后才能知道是否适合自己。如果选择了一个方向,就尽力做好;如果发现确实不感兴趣,也要有勇气及时调整方向。


YALI
来源| 网络 办公室
责编 | 王佳骏
一审 | 李勉 钟漓
二审 | 刘智锋
三审 | 杜慧 王良



用户登录