|
去年春节前,DeepSeek用一款R1模型震惊了全球AI圈,英伟达市值一夜蒸发近6000亿美元。 今年春节还有一个多月,很多人已经开始猜测,DeepSeek会不会再来一次新春大礼? 从最近的动作来看,这个猜测并非空穴来风。 元旦当天,DeepSeek悄悄在arXiv上发布了一篇新论文,提出了一种叫mHC的全新架构。近期,又把R1模型的论文更新到80多页。 此外,论文里提到的新技术已经在内部大规模训练实验中得到验证。 什么意思?下一代模型可能已经在路上了。 一、过去一年,DeepSeek到底做了什么?有哪些进步? 回顾2025年,DeepSeek的更新节奏相当密集。 1月发布R1,直接把推理成本打到了OpenAI的三十分之一,而其性能却不输GPT。逼得全球大模型厂商集体降价。而在此之前,中国的开源与闭源模型还无法达到与GPT等国际主流模型如此接近的性能。 5月推出R1-0528版本,实测性能大幅提升,在编程能力上几乎追平了OpenAI的o3-high。 8月发布V3.1,首次实现了思考模式和非思考模式的混合架构,Agent能力也有了明显提升。 9月R1论文登上Nature封面,成为全球首个经过顶级期刊同行评审的主流大模型。 12月发布V3.2正式版,在公开测试中达到了GPT-5的水平。 元旦当天,DeepSeek提出了一种叫mHC的全新架构,解决大模型训练不稳定的老大难问题。 近期,DeepSeek还做了一件让整个行业都没想到的事,把R1论文从22页扩充到了86页,几乎把所有训练细节都公开了。训练成本、技术路线、甚至失败的尝试,全部写得清清楚楚。 这种开源程度在AI行业极为罕见。OpenAI的GPT系列从不公开训练细节,Meta的Llama虽然开源权重,但技术报告也远没有这么详尽。 DeepSeek选择把底牌亮出来,某种程度上是在说,这些技术对我们来说已经不是需要隐瞒的了,我们在研究更新的东西。 为什么大家都在期待DeepSeek 国内做大模型的厂商不少,而且都是非常有实力的选手。但为什么每次DeepSeek有动静,关注度总是最高? 原因很简单,DeepSeek是唯一一家专注做底层技术创新的中国大模型厂商。 其他厂商大多是两条腿走路,一边做模型,一边做应用。 然而DeepSeek至今的手机应用界面还是十分简洁,除了对话之外没有其他功能。它没有自己的C端应用,不做商业化推广,甚至连融资都没接过。创始人梁文锋说得很直白:我们只做研究和技术,应用的事情交给别人。 这种纯粹让DeepSeek在技术路线上走得更远。 去年的MLA架构把推理显存降到了传统方案的5%到13%,今年的mHC架构又在解决大模型训练不稳定的问题。这些都是架构层面的创新,不是简单的参数堆叠或者数据优化能做到的。 更令人敬佩的是开源策略。DeepSeek采用的是MIT协议,商用完全不受限制。这意味着全球的开发者、芯片厂商、应用厂商都可以基于DeepSeek的技术做适配和二次开发。据统计,仅在去年R1发布后的一个月内,就有超过15家国产芯片厂商完成了适配工作。 这种生态效应是闭源模型做不到的。当一个技术标准被广泛采用,它就会形成正向循环:越多人用,生态越完善;生态越完善,越多人用。DeepSeek正在成为开源大模型领域的事实标准。 三、如果春节前真的更新,会带来什么 从mHC论文透露的信息来看,DeepSeek下一代模型很可能在训练效率和稳定性上有重大突破。 mHC解决的是一个困扰AI行业十年的问题:神经网络越深,训练越容易出现问题。以前的解决方案要么牺牲性能,要么增加成本。mHC可以让模型在保持高性能的同时,训练过程稳定得多。论文数据显示,信号失真从原来的3000倍降到了1.6倍,直接降了三个数量级。 这意味着什么?意味着可以训练更大、更深的模型,而且成本更低、成功率更高。 对普通人来说,这些技术细节可能有点抽象。 但换个角度想,去年R1让AI的使用成本降了几十倍,今年如果再来一次类似的突破,AI工具会变得更便宜、更好用。 现在已经有超过100款应用接入了DeepSeek,覆盖金融、医疗、教育、办公等各个领域,目前也是全球活跃的主流模型之一。如果底层模型再升级一代,这些应用的体验也会跟着提升。 当然,春节前是否真的会有大更新,目前还只是猜测。但从DeepSeek过去的节奏来看,他们确实喜欢在节假日放大招。去年V3是12月发布的,R1是1月,都赶在春节窗口期。 不管怎样,2026年的AI竞争注定会更加激烈。DeepSeek已经证明,用更少的资源做出更好的模型是可能的。这个思路仍然在持续影响着整个大模型行业。 |
