AI 缩放定律即将结束?
缩放定律,名词,一场赌注越来越大、赢面越来越小的牌局,庄家告诉你只要继续加注就一定能翻盘。
前两天我看到一条消息,Ilya Sutskever——对,就是那个 OpenAI 的联合创始人,GPT 系列的幕后推手——公开说,缩放定律的时代结束了。
你可能不知道这个名字。没关系。 你只需要知道一件事:过去五年,全球科技巨头在 AI 上砸的几千亿美元,底层逻辑全建立在一个假设上——模型越大、数据越多、算力越猛,AI 就越聪明。 这个假设,有个学术名字,叫缩放定律。
Ilya 就是那个把缩放定律从论文搬进工程的人。 现在他说,这条路走到头了。
你可能会问:那又怎样?一条技术路线走到头了,换一条不就行了?
问题没这么简单。 因为缩放定律不是一条普通技术路线,它是一场豪赌,赌注是整个硅谷的未来。 你想想,微软投了 OpenAI 一百三十亿美元,谷歌每年在 AI 基础设施上烧几百亿,Meta 采购了三十五万张 H100 显卡…… 这些真金白银,全部押在「更大就更好」这五个字上。
现在,庄家自己开口:这局牌,大概率打不下去了。
为什么打不下去? Ilya 用了一个很形象的比喻: 现在的 AI 模型,就像一个刷了一万小时竞赛题的程序员——题型全见过、套路全精通,考试答题横扫千军,却总会犯下人类绝对不会出现的低级蠢错。
你一定见过这类人。 中学里数学竞赛满分的学霸,压轴难题行云流水,但随口问一句「中午吃的什么」,他会愣神半天答不上来。 不是愚笨,而是思维被训练成了纯粹的解题机器:在训练范围内天下无敌,跳出固有场景,连基础常识都缺失。
大模型也是同理。 MMLU 综合测评能考九十多分,却会一本正经地给出离谱建议:把披萨放回冰箱前,要先关掉烤箱。 这种常识性错误,正常人绝不会犯,可万亿参数的超大模型,却频频踩坑。
为什么会出现这种割裂?
本质原因:大模型学习的是统计规律,而非因果逻辑。 它只记住「披萨、冰箱、烤箱」高频关联出现,却完全不懂背后的生活逻辑; 就像竞赛选手熟练套用解题公式,却不知道知识点在现实中该如何运用。
这就是 Ilya 提出的核心结论: 单纯扩大模型规模,无论堆多少参数、加多少算力,只能解决「记住更多模式」的问题,永远无法实现「理解底层道理」。
你或许会觉得:既然缺数据,多喂海量文本不就好了?
这就是第二个致命瓶颈——数据墙。
互联网的高质量文本,从来不是无限供给。 人类数千年沉淀的优质内容:书籍、学术论文、百科词条、权威新闻……全部数字化汇总,总量也就十到十五万亿个 token。 如今顶级大模型的训练数据,已经逼近这个上限。
直白来说:人类几千年的优质文明内容,快要被 AI 吃光了。
剩下的海量内容,全是低质垃圾:重复搬运、营销软文、水帖评论、无效水文。 把这些内容喂给模型,好比往一锅浓汤里狂兑自来水:体量变大了,价值和质感彻底稀释。
你又会问:让 AI 自主生成数据、自我迭代投喂,能不能破局?
技术上可行,但自带致命缺陷:模型崩溃。 AI 不断食用自己生成的内容循环训练,如同人天天对着镜子自言自语,久而久之逐渐失语。 每一轮自我迭代,内容多样性都会流失,有效信息持续退化,最终输出变得平庸、同质化、毫无逻辑。 学术界将这个现象,称作「递归的诅咒」。
再算一笔现实账:成本失控。
GPT-4 单次训练成本,外界预估高达 1 亿美元。 下一代超大模型,单次训练成本直接飙升至 10 亿美元以上。 这只是一次训练的开销,一旦效果不达预期、需要调参重做,就要再砸十亿。
这套模式,像极了古代帝王炼丹: 耗费巨资修建丹炉,炼出丹药无效,道士从不反思配方,只会推脱「丹炉不够大」; 重修更大的丹炉,丹药依旧无效,说辞永远不变——丹炉还不够大。
这就是缩放定律的终极逻辑陷阱: 只要规模扩大能带来微弱提升,这套理论就永远无法证伪。 进步微小,就怪模型不够大;效果不佳,就怪算力不够强。 逻辑闭环、完美自洽,和算命先生的说辞如出一辙:算准了是本事,算不准是你条件不够。
当然,Ilya 不只提出问题,也指明了新方向: AI 下一轮颠覆性突破,不靠更大的模型,而靠全新的学习范式。 比如更强的泛化能力、类人价值判断、模仿人类的自主学习模式。
实话实说:这个答案,等同于空话。
「更好的泛化」是所有 AI 的终极追求,「类人学习」更是模糊的概念。 理论上无懈可击,但落地路径完全空白。 哪怕是 Ilya 自己创办的 SSI 公司,至今也拿不出可落地的技术路线。
简单总结:病症诊断精准,但是没有开出药方。
行业顶层大佬的看法,更是两极分化。
- Anthropic CEO:缩放定律依旧有效,性能增长未见顶;
- OpenAI CEO Altman:规模迭代仍在继续,只是进化形式发生改变;
- 谷歌 DeepMind 高管:AI 规模拓展,还有漫长的路要走。
巨头 CEO 集体和 Ilya 唱反调,到底谁在说谎?
答案很简单:所有人都说了真话,只是维度不同。 企业高管口中的「持续进步」,是综合优化:算法升级、推理加速、合成数据、多模态融合……靠多元手段维持增长; 而 Ilya 否定的,是原始粗放的堆料模式:单纯加大参数、堆砌算力、无脑喂数据,这条路已经走到天花板。
一个说「桥还能拓宽改造」,一个说「老路已经走到尽头」,立场不同,却并不矛盾。
抛开行业博弈,缩放定律的崩塌,本质是一个永恒的哲学命题: 单纯的量变,能否催生真正的质变?
更多柴火,能让火焰更旺,但上限是固定的燃烧温度; 更大的望远镜,能观测更远太空,但上限无法突破光速; 更多的模型参数,能优化输出效果,却永远跨不过「理解」的鸿沟。
量变可以无限逼近天花板,但打破天花板的跨越,从来都不是靠堆积数量。 人类每一次科技革命,本质都是更换赛道: 牛顿没有无限细化天文观测数据,而是创造了微积分; 爱因斯坦没有修正经典力学公式,而是推翻前提、重构底层逻辑。
Ilya 呼吁「回归基础研究」,核心用意正是:粗放堆料的时代落幕,换路的时候到了。
但换路,是巨头最难做出的选择。 长期堆积的算力、数据、工程体系,都会变成沉重的沉没成本。 船造得越大,掉头就越艰难。
这也就解释了行业的荒诞现状: 所有科技大厂嘴上高喊「探索 AI 新范式」,背地里疯狂采购显卡、扩建数据中心。 股东要增长,市场要预期,资本裹挟之下,没人敢真正停下狂奔的脚步。 就像明知前路是悬崖,却因为速度太快无法刹车,只能一边奔跑,一边幻想学会飞翔。
最后,回归普通人视角,这场变革和我们息息相关,记住四个核心结论:
拒绝规模焦虑 不用盲目追捧超大模型,不用迷信「越大越强」。适配自身需求、轻量化、高实用度的工具,才是最优选择。
AI 仍在稳步进化 增长不会停止,只是逻辑改变。从单一堆料,转向算法、推理、多模态、合成数据的多元升级,实用价值会持续提升。
理性看待技术突破 范式革命需要漫长周期,五年是乐观预期,十年才是客观现实。未来数年,绝大多数所谓「突破」,都只是旧框架下的微小改良。
认清 AI 的本质边界 AI 从来不是全能神,只是极致强大的模式匹配工具。 模式匹配 ≠ 深度理解,机械背诵 ≠ 独立创作,数据记忆 ≠ 高级智慧。 AI 可以高效完成任务,但它和人类真正的「思考」之间,隔着一道无法逾越的高墙。
这道墙,有且只有一个名字: 因果。
第一性原理的终极验证
回到最基本的问题:智能的本质是什么?
- 如果智能 = 模式匹配 + 统计关联,那 scaling 确实见顶了——因为模式的空间有限。
- 如果智能 = 世界模型 + 因果推理 + 目标驱动,那 scaling 才刚刚开始——因为这些能力的训练信号和优化目标与 next-token prediction 完全不同。
- Ilya 说的「scaling era 结束」,本质上是在说:基于 next-token prediction 的 scaling 见顶了。这大概率是对的。但「scaling」这个词太宽泛——如果换一个目标函数、换一种训练范式,scaling 会以新的形式继续。
- 最终判断:Ilya 的直觉方向是对的,但表述过于绝对。不是 scaling 结束了,而是 scaling 1.0 结束了,scaling 2.0 正在开始。
本站博文如非注明转载则均属作者原创文章,引用或转载无需申请版权或者注明出处,如需联系作者请加微信: geekmaster01