AI 缩放定律即将结束？

缩放定律，名词，一场赌注越来越大、赢面越来越小的牌局，庄家告诉你只要继续加注就一定能翻盘。

前两天我看到一条消息，Ilya Sutskever——对，就是那个 OpenAI 的联合创始人，GPT 系列的幕后推手——公开说，缩放定律的时代结束了。

你可能不知道这个名字。没关系。你只需要知道一件事：过去五年，全球科技巨头在 AI 上砸的几千亿美元，底层逻辑全建立在一个假设上——模型越大、数据越多、算力越猛，AI 就越聪明。这个假设，有个学术名字，叫缩放定律。

Ilya 就是那个把缩放定律从论文搬进工程的人。现在他说，这条路走到头了。

你可能会问：那又怎样？一条技术路线走到头了，换一条不就行了？

问题没这么简单。因为缩放定律不是一条普通技术路线，它是一场豪赌，赌注是整个硅谷的未来。你想想，微软投了 OpenAI 一百三十亿美元，谷歌每年在 AI 基础设施上烧几百亿，Meta 采购了三十五万张 H100 显卡…… 这些真金白银，全部押在「更大就更好」这五个字上。

现在，庄家自己开口：这局牌，大概率打不下去了。

为什么打不下去？ Ilya 用了一个很形象的比喻：现在的 AI 模型，就像一个刷了一万小时竞赛题的程序员——题型全见过、套路全精通，考试答题横扫千军，却总会犯下人类绝对不会出现的低级蠢错。

你一定见过这类人。中学里数学竞赛满分的学霸，压轴难题行云流水，但随口问一句「中午吃的什么」，他会愣神半天答不上来。不是愚笨，而是思维被训练成了纯粹的解题机器：在训练范围内天下无敌，跳出固有场景，连基础常识都缺失。

大模型也是同理。 MMLU 综合测评能考九十多分，却会一本正经地给出离谱建议：把披萨放回冰箱前，要先关掉烤箱。这种常识性错误，正常人绝不会犯，可万亿参数的超大模型，却频频踩坑。

为什么会出现这种割裂？

本质原因：大模型学习的是统计规律，而非因果逻辑。它只记住「披萨、冰箱、烤箱」高频关联出现，却完全不懂背后的生活逻辑；就像竞赛选手熟练套用解题公式，却不知道知识点在现实中该如何运用。

这就是 Ilya 提出的核心结论：单纯扩大模型规模，无论堆多少参数、加多少算力，只能解决「记住更多模式」的问题，永远无法实现「理解底层道理」。

你或许会觉得：既然缺数据，多喂海量文本不就好了？

这就是第二个致命瓶颈——数据墙。

互联网的高质量文本，从来不是无限供给。人类数千年沉淀的优质内容：书籍、学术论文、百科词条、权威新闻……全部数字化汇总，总量也就十到十五万亿个 token。如今顶级大模型的训练数据，已经逼近这个上限。

直白来说：人类几千年的优质文明内容，快要被 AI 吃光了。

剩下的海量内容，全是低质垃圾：重复搬运、营销软文、水帖评论、无效水文。把这些内容喂给模型，好比往一锅浓汤里狂兑自来水：体量变大了，价值和质感彻底稀释。

你又会问：让 AI 自主生成数据、自我迭代投喂，能不能破局？

技术上可行，但自带致命缺陷：模型崩溃。 AI 不断食用自己生成的内容循环训练，如同人天天对着镜子自言自语，久而久之逐渐失语。每一轮自我迭代，内容多样性都会流失，有效信息持续退化，最终输出变得平庸、同质化、毫无逻辑。学术界将这个现象，称作「递归的诅咒」。

再算一笔现实账：成本失控。

GPT-4 单次训练成本，外界预估高达 1 亿美元。下一代超大模型，单次训练成本直接飙升至 10 亿美元以上。这只是一次训练的开销，一旦效果不达预期、需要调参重做，就要再砸十亿。

这套模式，像极了古代帝王炼丹：耗费巨资修建丹炉，炼出丹药无效，道士从不反思配方，只会推脱「丹炉不够大」；重修更大的丹炉，丹药依旧无效，说辞永远不变——丹炉还不够大。

这就是缩放定律的终极逻辑陷阱：只要规模扩大能带来微弱提升，这套理论就永远无法证伪。进步微小，就怪模型不够大；效果不佳，就怪算力不够强。逻辑闭环、完美自洽，和算命先生的说辞如出一辙：算准了是本事，算不准是你条件不够。

当然，Ilya 不只提出问题，也指明了新方向： AI 下一轮颠覆性突破，不靠更大的模型，而靠全新的学习范式。比如更强的泛化能力、类人价值判断、模仿人类的自主学习模式。

实话实说：这个答案，等同于空话。

「更好的泛化」是所有 AI 的终极追求，「类人学习」更是模糊的概念。理论上无懈可击，但落地路径完全空白。哪怕是 Ilya 自己创办的 SSI 公司，至今也拿不出可落地的技术路线。

简单总结：病症诊断精准，但是没有开出药方。

行业顶层大佬的看法，更是两极分化。

Anthropic CEO：缩放定律依旧有效，性能增长未见顶；
OpenAI CEO Altman：规模迭代仍在继续，只是进化形式发生改变；
谷歌 DeepMind 高管：AI 规模拓展，还有漫长的路要走。

巨头 CEO 集体和 Ilya 唱反调，到底谁在说谎？

答案很简单：所有人都说了真话，只是维度不同。企业高管口中的「持续进步」，是综合优化：算法升级、推理加速、合成数据、多模态融合……靠多元手段维持增长；而 Ilya 否定的，是原始粗放的堆料模式：单纯加大参数、堆砌算力、无脑喂数据，这条路已经走到天花板。

一个说「桥还能拓宽改造」，一个说「老路已经走到尽头」，立场不同，却并不矛盾。

抛开行业博弈，缩放定律的崩塌，本质是一个永恒的哲学命题： 单纯的量变，能否催生真正的质变？

更多柴火，能让火焰更旺，但上限是固定的燃烧温度；更大的望远镜，能观测更远太空，但上限无法突破光速；更多的模型参数，能优化输出效果，却永远跨不过「理解」的鸿沟。

量变可以无限逼近天花板，但打破天花板的跨越，从来都不是靠堆积数量。人类每一次科技革命，本质都是更换赛道：牛顿没有无限细化天文观测数据，而是创造了微积分；爱因斯坦没有修正经典力学公式，而是推翻前提、重构底层逻辑。

Ilya 呼吁「回归基础研究」，核心用意正是：粗放堆料的时代落幕，换路的时候到了。

但换路，是巨头最难做出的选择。长期堆积的算力、数据、工程体系，都会变成沉重的沉没成本。船造得越大，掉头就越艰难。

这也就解释了行业的荒诞现状：所有科技大厂嘴上高喊「探索 AI 新范式」，背地里疯狂采购显卡、扩建数据中心。股东要增长，市场要预期，资本裹挟之下，没人敢真正停下狂奔的脚步。就像明知前路是悬崖，却因为速度太快无法刹车，只能一边奔跑，一边幻想学会飞翔。

最后，回归普通人视角，这场变革和我们息息相关，记住四个核心结论：

拒绝规模焦虑 不用盲目追捧超大模型，不用迷信「越大越强」。适配自身需求、轻量化、高实用度的工具，才是最优选择。
AI 仍在稳步进化 增长不会停止，只是逻辑改变。从单一堆料，转向算法、推理、多模态、合成数据的多元升级，实用价值会持续提升。
理性看待技术突破 范式革命需要漫长周期，五年是乐观预期，十年才是客观现实。未来数年，绝大多数所谓「突破」，都只是旧框架下的微小改良。
认清 AI 的本质边界 AI 从来不是全能神，只是极致强大的模式匹配工具。模式匹配 ≠ 深度理解，机械背诵 ≠ 独立创作，数据记忆 ≠ 高级智慧。 AI 可以高效完成任务，但它和人类真正的「思考」之间，隔着一道无法逾越的高墙。

这道墙，有且只有一个名字：因果。

第一性原理的终极验证

回到最基本的问题：智能的本质是什么？

如果智能 = 模式匹配 + 统计关联，那 scaling 确实见顶了——因为模式的空间有限。
如果智能 = 世界模型 + 因果推理 + 目标驱动，那 scaling 才刚刚开始——因为这些能力的训练信号和优化目标与 next-token prediction 完全不同。
Ilya 说的「scaling era 结束」，本质上是在说：基于 next-token prediction 的 scaling 见顶了。这大概率是对的。但「scaling」这个词太宽泛——如果换一个目标函数、换一种训练范式，scaling 会以新的形式继续。
最终判断：Ilya 的直觉方向是对的，但表述过于绝对。不是 scaling 结束了，而是 scaling 1.0 结束了，scaling 2.0 正在开始。

AI 时代，孩子到底该学什么？爱马仕 vs 小龙虾：新一代 AI 助理到底该选谁？

飞行的蜗牛

Choose mode

AI 缩放定律即将结束？

AI 缩放定律即将结束？