杨立昆
DeepSeek-R1 的横空出世,这不是一个简单的中国 AI 技术超过美国的问题,而是开源模型超越了专有模型,这是开源世界的胜利。
DeepSeek凭借其创新的技术和卓越的性能,迅速崭露头角,成为行业内备受瞩目的力量。DeepSeek的应用不仅在国内外各大社交媒体平台上取得了显著的用户增长,还在AI技术的多项评比中名列前茅,展现了其强大的市场竞争力。 DeepSeek R1模型引入了不依赖监督微调的强化学习技术,使得模型在微调后的性能大幅提升。例如,在数学能力方面,基础模型的得分为100分,而经过微调后,得分可达到450分。本文基于对DeepSeek-V3和R1论文的研究,解析 DeepSeek-R1 的训练过程以及其核心技术原理。