在这个AI技术日新月异的时代,我们眼看着它不仅在改变生活,更在改变着商业规则。
AI可不只是那些冰冷的算法,它现在能像人一样思考、推理,甚至在某些方面的表现超越了普通人。这告诉我们,传统的技术和创新模式已经不够用了,企业要想增长、要保持竞争力,就需要换个思路。AI正在重新定义我们理解和实践商业创新的方式。
最近,混沌君旁听了混沌学园的创始人李善友教授的重磅全新课程《认知型创新:从OpenAI到DeepSeek》。
这门课从企业创新的角度,讲述了全球两大顶尖AI公司——OpenAI和DeepSeek是如何一步步走到今天的,他们究竟走过了怎样的创新之路。这对于我们理解AI时代的技术创新和企业创新,提供了清晰且极具价值的路径。
教授深挖了OpenAI最初的愿景和它如何对抗巨头的思路,解密大语言模型是如何诞生的,尤其是AI能力如何从简单积累到惊人“涌现”。还解读了DeepSeek如何在资源有限的情况下,走出一条“低成本高性能”的独特道路;更探讨了AI时代下,企业应该怎样构建一个能不断“涌现”创新的组织模式,走向“技术领先”。
观看本课程和600+主题课
第一幕:OpenAI的横空出世
OpenAI的创立初心:反巨头霸权
OpenAI的故事得从2015年说起。那时候,埃隆·马斯克和萨姆·奥特曼就开始担忧:AI这种未来世界的“终极武器”,若落到少数科技巨头手里,对全人类将是巨大麻烦。马斯克亲历了谷歌收购DeepMind,深感AI力量集中的风险,于是他决定和奥特曼一起干件大事——成立OpenAI。
他们的初心是要搞一个开源、安全、普惠的人工智能。与其让几家大公司“圈地为王”,不如让AI技术像阳光空气一样,普照给所有人。为此,他们不惜代价从谷歌挖来核心科学家伊利亚·苏茨克维尔(Ilya Sutskever)。据传,就因为挖走伊利亚这事儿,马斯克跟谷歌创始人之间的友谊都断了。
图为伊利亚·苏茨克维尔(Ilya Sutskever)
OpenAI于是就带着“反巨头”使命诞生,最初是非盈利组织,为保证AI纯粹与开放。他们吸引顶尖科学家,共同探索通用人工智能(AGI)的可能性。
大语言模型的诞生逻辑:Transformer × Scaling Law
OpenAI能引爆大语言模型革命,并非偶然,而是源于对两大“秘密武器”的极致运用:Transformer架构和Scaling Law(尺度定律)。
先说Transformer。这是谷歌在2017年搞出来的,当时它像个低调“技术极客”,没人预料到它的巨大能量。打个比方,以前处理语言信息的模型,像“近视眼”,难以高效处理长文本。而Transformer引入“自注意力机制”,让模型处理每个词时,能“一眼扫尽”整个句子所有其他词,并判断词与词之间关系。这就像给模型装上“超广角透视眼”,其语言理解能力瞬间飙升,实现数据并行处理,训练速度大大提高,为大语言模型高速发展奠定基础。
Transformer架构介绍,图源自网络
紧接着,是真正让“大模型”概念深入人心的Scaling Law(尺度定律)。这项定律揭示了一个规律:大语言模型性能提升,并非玄学,而与模型规模(参数量)、训练数据量及计算资源投入之间,存在可预测的、几乎线性的关系。这意味着,只要持续投入更多计算资源,用更大模型、更多数据训练,模型性能就会稳步提升,甚至“涌现”出未曾预料的新能力。
只要算力足够大,数据足够多,神经网络就一定可以超越人类设计。这个思维影响了伊利亚。
OpenAI正是凭借对Scaling Law的“笃信”和伊利亚等人的坚决执行,才敢于进行前所未有的巨额投入,最终催生了震惊世界的颠覆性大语言模型。可以说,Scaling Law不仅是科学发现,更是指引AI前进的“信仰”。
从MP神经元到GPT的“涌现”之路
人类对机器智能的探索,是漫长而惊喜的旅程。早在上世纪40年代,科学家们就琢磨人脑思考方式,搞出了像MP神经元模型这样的早期理论,它像简陋的“电子脑细胞”,是构建人工神经网络的初步尝试。这些最初的尝试,虽笨拙,却为后来深度学习的参天大树打下根基。
而当代的GPT(Generative Pre-trained Transformer)系列模型,是这条演进链上的最新奇迹。它们之所以轰动,核心在于一个神奇能力:“涌现”。这词儿听起来有点哲学,但很好理解。你可以想象,单个水分子没有“湿润”属性,但无数水分子聚集成河流,便能滋养万物——这就是“涌现”。
在GPT模型里,当参数量(模型“神经元”数量)和训练数据量达到巨大临界点时,这些模型就像突然“开了窍”,能力瞬间爆发,展现出单个部分不具备、甚至连科学家都难以预测的新功能。
这些能力并非预先编程设定,而是在海量训练中自发学习和领悟。这种“涌现”现象,使得大语言模型不再是只会“鹦鹉学舌”的工具,它们开始具备“智能”,成为可与人类协作的通用型助手。
ChatGPT的爆火与人机交互范式变革
如果说GPT模型诞生是AI技术大爆炸,那么2022年末OpenAI推出的ChatGPT爆火,则是一场真正意义上的全球“现象级”事件。
以前的AI工具,用起来很麻烦,你得学它的“行话”,敲特定指令。但ChatGPT不一样,你用最日常、最自然的口语输入,它就能理解你的意思,提供你想要的答案。无论是帮你写邮件、生成文案、解答科学问题,甚至是调试代码,ChatGPT都能给出令人惊艳的回答,有求必应。
所以,ChatGPT的“火”,绝不仅仅是技术厉害,它更深刻地引发了人机交互范式根本性变革。以前,我们与机器交流僵硬、刻板。但ChatGPT开启“对话式AI”时代。它让用户不再需要学习枯燥编程语言或复杂指令,而是可以像聊天一样,用最自然、最日常语言提问,AI就能理解并给出有意义、有逻辑的回复。
这极大降低了AI使用门槛,让曾经高高在上的技术,真正走入千家万户,深刻改变着人们的工作、学习和生活方式。
可以说,ChatGPT的成功,不仅为后续AI应用大爆发奠定用户基础,更重塑了我们对人机协作可能性边界的认知,让我们看到了无限可能的未来。
推理模型o1的登场:从系统1到系统2的认知跃迁
在ChatGPT掀起普及狂潮后,OpenAI并未止步,继续将目光投向更深层次智能——于是,迎来推理模型o1的登场。o1的出现,标志着人工智能认知能力的重要跃迁,它将AI思考模式从“系统1”推向“系统2”。
这个“双系统理论”源自心理学家丹尼尔·卡尼曼的《思考,快与慢》:系统1代表人类的直觉思维:快速、自动化、不费力。如看到2+2立刻得出4。
《思考,快与慢》书影
OpenAI的推理模型o1,正是朝着AI具备“系统2”能力方向迈进。它不再仅依赖海量数据模式匹配,而是能进行更复杂的多步推理、逻辑分析和深度问题解决。甚至在推理中自我纠正。这种能力提升,使AI展现出更接近人类高级认知功能的理解、分析和推理能力。
第二幕:DeepSeek的逆袭战略
“有限Scaling Law”:低成本高性能路线
在全球AI巨头大举投入、追求极致Scaling Law时,中国DeepSeek却走出截然不同的逆袭之路——他们玩儿的是“有限Scaling Law”,成功实践了低成本高性能战略。
这并非否定规模力量,而是在资源有限现实下,玩儿出效率最大化的智慧。
DeepSeek团队清楚,并非所有公司都像OpenAI那样拥有无限算力与资金。所以,他们目标明确:如何在更“经济”的投入下,达到甚至超越顶尖模型性能?
他们不光投入少,更重要的是“会玩儿”。
“有限Scaling Law”的核心,在于对模型架构和训练方法深度优化。他们更侧重数据高质量筛选与利用,而非盲目堆砌;更注重训练算法效率和收敛速度,而非简单延长训练时间;更关注模型推理阶段性能和能耗比,而非仅追求训练阶段的峰值数据。
有个小细节特别能体现他们的理念。DeepSeek CEO梁文锋常对团队说:“这行代码,能不能省五毛钱的电费?”
你想想,这种抠细节、追求极致效率精神,是不是跟那种“只要有钱,大力出奇迹”的无限游戏完全不同?
最终,DeepSeek的R1模型以极低训练成本,展现出与OpenAI o1模型媲美的强大能力,甚至在某些指标上有所超越。
这无疑是对“有钱就能赢”单一路径的有力回应,证明创新在资源受限时,同样可迸发出惊人的能量。这个战略选择,也让更多中小型企业和研究机构看到参与大模型竞争的可能性。
架构创新:MLA + MoE 的软硬协同优化
DeepSeek能在有限成本下跑出高性能,除了理念上的“有限Scaling Law”,还得靠他们家在模型“骨架”上的大胆创新和软硬件的配合。这其中,MLA(Multi-Head Latent Attention 多头潜在注意力)和MoE(Mixture of Experts,混合专家模型)是两大秘密武器。
先说MLA。Transformer架构里的“自注意力机制”虽然厉害,但处理长文本时特别“吃内存”,就像你脑子一下子要记住一本书每一页每一个字,特别占内存。MLA技术就像给模型“大脑”安装高效“索引系统”和“压缩包”。它通过算法设计,让模型计算注意力时更高效利用内存。
打个比方,传统做法图书馆所有书都是大号精装本,特占地方。MLA能把普通书压缩成低精度的版本,只有关键工具书才精装。这样,模型处理长文本时,就不用把所有细节都精装到内存里,只需要提炼核心信息,于是节省内存占用,效率大大提升。
再来说说MoE(混合专家模型)。这个不是他们原创,但DeepSeek把它用活了。
传统模型训练,像培养“全能厨师”,什么菜都会做,训练难还特别贵。MoE思路完全不一样,它把大模型拆分成多个专家子网络。每个专家像只专注一道菜的“专业厨师”。当新任务进来时,模型像智能领班,只把任务分配给最擅长解决问题的“专家”厨师,而不是所有厨师都瞎忙活。
这样,每次计算时,只有少数相关的“专家”被激活,显著降低了模型的计算成本和推理延迟。就像餐馆有256个厨子,你点麻辣烤鱼和甜点,只需激活川菜专家、海鲜厨师和甜点师三四个,效率是不是高多了?
最关键的是,DeepSeek不光用了这些技术,他们还实现了软硬协同优化。这可不是简单软件优化,而是模型架构(软件)和底层计算硬件(如华为昇腾AI平台)的深度配合。他们像软件工程师和硬件工程师坐一桌,共同设计一套最匹配系统,最大限度发挥计算资源潜力。这种从“软件”到“硬件”的全栈优化思路。这才是DeepSeek突破资源瓶颈,实现低成本高性能的真正原因。
就拿DeepSeek V3模型来说,它参数高达6710亿,但每次计算只需激活37亿参数,这使得V3训练成本仅5557万美元——是同类型模型成本的十分之一。这种巨大的成本优势,让所有人都震惊了。
R1开源,推动全民AI认知突破
如果说DeepSeek V3模型让他们业界崭露头角,那么真正让DeepSeek名震天下的,是它在2025年1月20日发布的推理模型R1。V3相当于基础的归纳法,R1则是真正能“思考”的推理模型。
我们拿围棋AlphaGo和AlphaGo Zero做个类比。AlphaGo打败柯洁,因它背下人类围棋几千年棋谱,是在人类经验上学下棋。AlphaGo Zero则不同,不输入任何人类定式,只告知它基本规则,然后自己跟自己下棋,纯强化学习,“左手打右手”,把差的扔掉,好的继续优化。结果呢?AlphaGo Zero只训练三天,就完胜AlphaGo。
回到AI大模型,OpenAI的GPT模型,强化学习基于人类反馈(RLHF),就像刚开始的AlphaGo。而DeepSeek的R1,像AlphaGo Zero,用无需人类反馈的纯强化学习,让AI自己“试错”,好的留,差的扔,自己摸索最优解。
令人震惊的是,OpenAI的推理模型o1虽率先实现类似能力,但它保密、不开源、不写论文。然而,DeepSeek竟然成功复现了这种能力。这简直“惊天地泣鬼神”。
而且,R1模型在交互上,竟然还能展示完整推理过程。你问问题,它不仅给答案,还能把怎么一步步“思考”出来的过程展示给你。甚至有评论说,连奥特曼都对OpenAI o1不能展示完整推理过程感到后悔。
奥数竞赛中,DeepSeek R1和OpenAI o1准确率几乎不相上下,证明R1在纯逻辑推理、数学和编程上的强大能力。
2025年1月26日,DeepSeek甚至登上美国免费应用榜单第一。微软CEO公开场合提DeepSeek,第二天英伟达市值就下跌17%!这足以说明R1的出现,对整个AI生态产生了巨大震动。
刘嘉教授曾打比方:“这就像从尼安德特人到现代智人这么重要。” 它实现从归纳法到演绎法认知跃迁,人类文明史上只有古希腊发生过,才有了科学革命。
现在,AI正进入此阶段,R1,就是智能时代的“核武器”,目前只有中美两国拥有。
AI时代组织的构建:以“涌现”为关键词的AI Lab范式
在AI浪潮冲击下,传统组织模式面临重构需求。DeepSeek则描绘了一种以“涌现”为关键词的AI Lab范式,更能适应AI时代创新节奏。
传统的研发机构往往层级分明,任务自上而下分配。但在AI大模型研发中,创新不可预测,需要高度灵活性和自发性。DeepSeek AI Lab组织范式,正是为了激发这种“涌现”创新力。这种范式:
开放协作与资源共享:DeepSeek允许研发资源(特别是宝贵的GPU算力)对全员开放。研究人员可根据项目需求,自由调用计算资源,不受限于审批流程。这种高度资源共享,极大激发研究人员积极性、自主性,让他们能更快速进行实验和迭代。
动态团队构成:项目团队非固定,根据研究方向动态调整。员工可根据兴趣专长,自发成立小组,共同推进特定项目。这种灵活团队模式,打破部门壁垒,促进跨学科合作与知识流动。
自组织管理:管理提供创新“涌现”环境,非简单命令控制。团队成员拥有自主权与责任感,主动发现问题,提出解决方案。管理者提供支持,扫清障碍,确保信息透明。梁文锋本人就保持着极高专注力,他不见外人,大量时间招聘,亲自把关人才,甚至亲自写代码、写论文。他们的HR团队也极其朴素,没有那种大公司的“高大上”气质。
这种以“涌现”为关键词的AI Lab范式,本质在于激发个体创新潜能,并将其汇聚成组织集体智慧。它强调信任、自由、赋能,鼓励试错、快速迭代,从而在不确定性极强的AI研发领域,实现持续技术突破和创新。这对于希望在AI时代保持竞争力的创业者而言,提供了极具参考价值的组织构建思路。
有一个非常经典的例子可以体现这种“涌现”。DeepSeek的MLA架构创新是怎么诞生的?据说源于某个研究员的个人兴趣,他在总结主流注意力机制架构演化规律后,突然灵感迸发,设计出新替代方案。这个方案不是梁文锋想的,也不是小组攻关的,就是一个年轻人“顿悟”出来的。
再比如,北大在读博士(博三)王培懿,加入DeepSeek时并没有强化学习经验,但在数学研究中独立推导出了一个统一公式,解决了各种训练方法问题,这也是一个“顿悟时刻”。正是这个公式,让R1 Zero变成了今天的R1。
DeepSeek V2论文有150位作者,甚至包含数据标注人员名字,梁文锋本人也在其中。这种团队协作模式,体现人与人之间的平等交互,没有严格的KPI和OKR束缚。
但程序员为了1%性能突破,可不眠不休工作一月,不害怕困难。因为这能激发天赋和成就感。这种组织,就是为了让创新能够自然地“涌现”出来。
对于技术创新驱动的创业者而言,DeepSeek的组织模式提供了新思路。传统的金字塔管理、KPI考核,在AI这种高度不确定和需要灵感“涌现”的领域,反而可能成为创新的桎梏。
如果你也是技术出身的创业者,你可能更应该相信你的团队,尤其是那些对技术本身充满热情、有好奇心的年轻人。给他们足够的自由和资源,让他们在“无人区”里探索,而不是把他们框死在既定任务里。
梁文锋的做法是:招来合适的人,交给他重要的事儿,然后就放手让他自己想办法,自己发挥。
还有就是拥抱“非标准”人才。不要只盯着大厂出来的大咖,那些有潜力的应届生、博士生,他们可能技能多于经验,但对研究的渴望远超金钱。他们比较纯粹,这样的年轻人正是你打造“涌现型组织”的基石。
“我们希望培养出自己的团队。” 这是梁文锋的野心,也是你可以学习的培养团队的策略。
确保内部透明与资源共享。你的计算资源(比如GPU算力),能不能对团队成员没有限制?当他们有想法时,能不能随时调用训练集群,无需审批?这种内部的“开源”和自由度,能够极大激发员工的创造力。
请记住,组织的本质是人与人之间的交互模式。在AI时代,你需要打造的,是一个能够让每个个体的“心流”与组织的“涌现”融为一体的组织。
DeepSeek的崛起:打破中国创新者的“思想钢印”
我们要问了:DeepSeek的成就,为何是由看似“名不见经传”的梁文锋创造的,而不是那些大厂——腾讯、阿里,字节,或者“六小虎”们?
要知道,大厂肩负着市值压力,而“六小虎”们则面临估值重担。过去,所有企业都有一种根深蒂固的惯性,一条“看不见的绳子”牵引着他们:必须尽快实现商业化、产品化、应用化,追求用户增长和营收。因为有融资、有市值,就必然有KPI。
那么,这些巨头为何未能自主创新呢?核心原因就在于一个“看不见的假设”——必须快速商业化、快速赚钱。在这种心态下,企业不敢直面最核心的问题,不敢进行长期的基础投入。
但更深层次的原因是:两代互联网创业者,从内心深处,就不相信中国企业有能力做基础研究。无论是第一代的BAT,还是第二代的头部企业,他们嘴上说在做,但内心深处,即使是中国最顶尖的几家大厂,也不敢真正相信自己能做出原创性的基础研究。
请问,在DeepSeek之前,有哪家中国大厂曾公开宣称:“我中国的模型要做世界第一,我要引领世界”?没有。
我们一直活在一种《三体》式的思维定势中——美国人负责原创,中国人负责应用和商业化。这便是两代中国互联网创业者集体潜意识中的“思想钢印”。
梁文锋用行动证明了中国公司在AI基础研究和模型创新方面同样具备全球领先的实力。这种转变,并非仅仅是追赶,而是真正意义上的“技术领先”。
在过去30年的IT革命中,中国几乎没有真正参与核心技术革命,我们习惯了摩尔定律从天而降,默认可以等18个月再跟上。这种心态,其实是一种极大的自我矮化。
但梁文锋和DeepSeek站了出来,用实际行动说:“我们不这样!” 他们相信技术进步是西方科技社区几代人持续努力的结果,我们中国人也应该参与其中,而不是仅仅做受益者。这种理念上的转变,是DeepSeek在AI基础研究领域取得突破的关键动力。
对技术创新驱动的创业者来说,DeepSeek的理念是振聋发聩的。它呼吁我们打破“思想钢印”。
你是否也活在“美国做原创,中国做应用”的思维定势里?梁文锋用实践证明,这种思想钢印是可以被打破的。中国人第三代创业者也到了必须做,而且可以做,有能力做原创创新的时候了。这个时候到了,不是你也是他。
所以,要敢于挑战基础研究的“无人区”。不要只盯着眼前的商业化和利润,真正的颠覆性创新往往需要长期的投入和对未知的好奇心。创新不仅仅是商业驱动的,它需要好奇心和创造的野心。我们只是被习惯束缚住了,这就是你内心那根“看不见的马绳”。
梁文锋的行为很多时候对一个创业者的身份来说是“疯狂”的——在2021年最糟糕的年份,他还投入巨资建设算力集群,这绝非投机者能做出的决策,而是信仰者。
“我不是因为今天AI火了,我今天做AI的,我是一直有这个梦想的。” 这种纯粹的初心,才是支撑人穿越低谷、走向成功的真正动力。
DeepSeek创始人梁文锋
结语:
“认知型创新”精髓就在于对技术本质的深刻理解与战略性重构。DeepSeek的出现,为中国AI产业注入了强大信心动力,更点亮了中国在AI时代成为世界基座的希望,这在工业革命以来是前所未有的。
转念就是改命。如果我们这一代创业者能够打破内心的思想钢印,敢于在基础研究领域迈出那一步,那将是中国创新史上的一个重要转折点。
所以,我们要永远相信中国,永远相信创新者。
“混沌会员”,每年50场主题必修课,已有600+主题课。
“混沌会员”正式价1498元/年,现月卡仅需99元,即可观看本文相关的完整课程,以及月卡体验期内,600+主题课都可全部收听!