奥特曼发红色警报,大模型走进死胡同了吗?

昨天,OpenAI CEO奥特曼发出了一份内部备忘录,宣布公司进入“Code Red”(红色警报)紧急状态。表面上看,这是OpenAI针对谷歌、Anthropic这两位强力竞争对手的应急响应。但更深层的问题是,OpenAI正在面临一个整个行业都无法回避的技术困境。那就是训练成本飙升,模型规模不断扩大

昨天,OpenAI CEO奥特曼发出了一份内部备忘录,宣布公司进入“Code Red”(红色警报)紧急状态。

表面上看,这是OpenAI针对谷歌、Anthropic这两位强力竞争对手的应急响应。

但更深层的问题是,OpenAI正在面临一个整个行业都无法回避的技术困境。那就是训练成本飙升,模型规模不断扩大,但性能提升却越来越有限。

根据斯坦福大学的《2025年AI指数报告》,2019年到2022年间,训练成本每增加10倍,模型在主流基准测试上的性能平均能提升25%-35%。但到了2023年之后,同样10倍的成本投入,性能提升就只剩下10%-15%。

更糟糕的是,2024年以来,即使训练成本再翻倍,性能提升往往不足5%,投入产出比正在断崖式下跌。

各家头部模型的表现开始趋同,仿佛集体撞上了某种看不见的天花板。

这引发了一个在AI学术界和产业界激烈争论的问题:大语言模型,是否已经走进了死胡同?

01

首先从用户数据来看,OpenAI的*地位已经开始动摇。

谷歌的Gemini 3模型在基准测试上超越了OpenAI,这使得Gemini的月活用户飙升,谷歌第三季度财报披露,目前Gemini的月活已经从7月的4.5亿增长到10月的6.5亿。

与此同时,Anthropic的Claude也在企业客户中越来越受欢迎。根据OpenRouter的数据,截至2025年11月末,Claude的周访问量达0.41亿人次,较六周前增长17.1%。

但更要命的消息还在后面。

根据半导体行业分析公司SemiAnalysis的爆料,自2024年5月GPT-4o发布以来,OpenAI的*研究人员就再也没有成功完成过一次大规模的全面预训练。

这意味着GPT-5跟GPT-4o之间,其实没有经历真正意义上的代际升级,更像是在GPT-4o基础上做的微调和优化,而不是一个全新训练出来的模型。

SemiAnalysis还在分析中给OpenAI补了一刀:“预训练一个前沿模型,是整个AI研发中最困难、资源最密集的挑战。而谷歌的TPU平台已经决定性地通过了这个测试,可OpenAI并没有。”

预训练是训练大语言模型的*步,也是最关键的一步。在这个阶段,模型要在海量的文本数据上学习语言的基本规律,比如语法、语义、事实知识等等。

无法完成大规模预训练,就无法升级迭代到下一个时代的模型,这对于OpenAI这种必须保持技术*的企业来说是致命的。

MMLU的跑分进一步佐证了SemiAnalysis的观点。其全称为大规模多任务语言理解(Massive Multitask Language Understanding),是衡量大模型综合知识与推理能力的核心权威基准测试。

从结果来看,GPT-5的MMLU评分只比GPT-4提升了10%-20%。

要知道,Anthropic CEO 达里奥·阿莫迪(Dario Amodei)曾公开表示,2024-2025年期间的大模型,训练成本是10亿到20亿美元,是一年前大模型训练成本的10倍。而GPT-5的成本更是比GPT-4(约 6000万-1亿美元)高了约20-30倍。

面对如此的双重困境,奥特曼不得不调整策略,将重心转向优化现有产品。

奥特曼在备忘录中表示,公司需要改进ChatGPT的个性化功能、提高速度和可靠性、扩大其可回答的问题范围。

为此,OpenAI决定推迟广告、健康和购物AI代理、名为Pulse的个人助手等其他项目的开发,鼓励员工临时调岗,每天召开专门会议讨论ChatGPT的改进。

在此之前,OpenAI曾于2025年10月拉响过“Code Orange”(橙色警报)。

OpenAI内部的警报分为三个级别:黄色、橙色、红色。颜色越红,就代表事态越严重。而拉响内部警报的标准,是根据OpenAI当前的市场竞争压力和产品危机。

橙色警报对应明确的竞争威胁或产品危机,核心业务已出现 “被动局面”,比如市场份额被蚕食、用户流失。需要OpenAI “局部资源倾斜” 应对。

当时OpenAI的做法是成立 “应急优化小组”,由产品、技术、算法核心负责人牵头,调配 50% 以上的研发资源聚焦核心产品。

02

但OpenAI不是*陷入瓶颈的公司,整个行业都在面临同样的困境。

从2024年底到2025年初,*大模型的性能提升曲线出现了明显的平缓。根据LMSYS Chatbot Arena的盲测数据,2024年6月时,*和第十的模型之间Elo评分差距超过150分。

但到2025年11月,这个差距已经收窄到不足50分。更值得注意的是,几乎所有主流模型在关键基准测试上的得分都开始集中在一个狭窄的区间内。这种趋势意味着,即使各家公司投入的资源差异巨大(从数千万美元到数十亿美元不等),但最终产出的模型性能却越来越相似。

在2023年3月,OpenAI刚发布GPT-4时,其在MMLU测试中的得分确实为86.4%。而当时主流竞争对手的成绩大多集中在60%-75%区间,比如同期的Claude v1在该测试中得分仅为75.6%,LLaMA-65则只有 63.4%。

可是到了2025年9月的MMLU-Pro(MMLU的进阶版评测基准,评分标准更严格)中,所有的头部模型都是85%到90%,几乎没有任何差别。

从更新的频率来看,Meta的Llama模型从第二代到第三代间隔约9个月,而Llama 3到计划推出的Llama 4间隔已超15个月;Anthropic从Claude 3到Claude 4的间隔也长达11个月。

种种迹象都在表明,曾经被奉为大语言模型黄金定律的Scaling Law,正在失效。

造成这一结果的原因,其实就来自于大模型本身。

大模型训练的核心任务是“预测下一个词”。

通过在海量文本上反复训练这个任务,模型逐渐学会了语法、常识、推理能力等。当模型已经足够强,明白语法和常识时,语言本身的不确定性就成为了影响模型输出结果的变量。

举个例子:“他把苹果放在桌子上,然后它就不见了。”这里的“它”是指苹果还是桌子?从语法上讲,两种理解都说得通。要搞清楚“它”指什么,需要的不是更好的语法知识,而是对现实世界的常识判断。

但如果换一种说法:“他把手机放在桌子上,然后它就倒了。”这里的“它”可能是手机,也可能是桌子。如果是廉价折叠桌,确实可能因为放了个手机就倒了;如果是手机壳打开了,手机本身也可能倒。没有足够的上下文,连人类也很难做出准确判断。

这种由语言本身的歧义和不确定性造成的误差,在统计学上叫“不可约误差”(Irreducible Error),或者“贝叶斯误差率”(Bayes Error Rate)。

即使你有*的算法、无限的数据和算力,这个误差也无法消除,它是问题本身固有的特性。

人类语言充满了这种不确定性。我们平时说话,很多信息靠语境、肢体语言、声调、共同背景知识来传递。把这些都去掉,只留下纯文本,信息损失巨大。

大语言模型训练的就是这些纯文本,所以天生就会面临不可约误差的限制。

当模型还比较弱时,它会犯很多低级错误,比如语法错误、事实错误、逻辑错误。解决这些可以通过增加数据、增大模型、改进算法来实现。但当模型已经足够强,不再犯低级错误时,剩下的错误主要就是这种不可约的、由语言本身特性造成的误差。

到这个阶段,再怎么砸钱砸资源,提升也是有限的。

第二个问题是数据枯竭。到GPT-4的时候,OpenAI几乎已经把整个互联网上的高质量文本都学完了。各种百科、数字图书馆、GitHub代码、Reddit讨论、各种专业论文和文档。

能用的高质量数据基本都用完了。剩下的是大量低质量内容,比如广告软文、垃圾帖子、重复内容、机器生成的垃圾信息。

要解决数据不足,一些厂商开始用AI生成数据来训练AI。但这会导致一个严重问题,叫“模型崩溃”(Model Collapse)。简单说,如果一个模型只吃自己或其他模型产出的数据,它的多样性会下降,甚至会放大自身的错误和偏见,最终导致模型变得越来越笨,输出越来越单调。

这个过程有点像生物学上的近亲繁殖。在生物界,如果一个种群长期近亲繁殖,基因多样性会逐渐丧失,遗传缺陷会被放大,最终导致种群退化。模型崩溃也是同样的道理。

2024年发表在Nature上的一篇论文《当 AI 模型在递归生成的数据上训练时,会出现性能崩溃》(AI models collapse when trained on recursively generated data),就系统研究了这个问题。研究人员发现,在早期模型崩溃阶段,模型会首先丢失数据分布尾部的信息。到了后期,整个数据分布会收敛到一个非常狭窄的范围,跟原始数据几乎没有相似之处。

研究人员做过实验:用一个预训练好的语言模型生成一批文本,然后用这批文本训练新模型,再用新模型生成文本,再训练更新的模型……如此反复几代后,模型的输出变得越来越单调、重复,原本数据中那些出现频率较低但很重要的信息(比如专业领域知识、小众但正确的观点)逐渐消失了。

每一代模型生成数据时,都会倾向于生成那些在训练数据中最常见、最“安全”的内容。那些出现频率低的、边缘的信息,在生成的数据中出现概率会更低。经过几代迭代,这些信息就彻底丢失了。

更麻烦的是,现在互联网上已经充斥着大量AI生成的内容。ChatGPT发布后,网络上的文章、社交媒体帖子、甚至学术论文,都开始出现越来越多AI生成痕迹。

如果未来模型通过爬取互联网获取训练数据,不可避免地会把这些AI生成内容也包含进去。这意味着,模型崩溃不再只是实验室里的理论问题,而是整个AI行业都将面临的实际威胁。

03

关于大语言模型是否进入了死胡同,这个问题其实一直充满争议。

以AI教母李飞飞为代表的维新派认为:大语言模型不是*的,它只是AI系统中的一个组件。要实现真正的人工智能,需要把不同类型的任务分配给不同类型的模型。

李飞飞曾直言不讳地说,AGI是一个营销术语,不是科学术语。现如今真正缺失的不是“通用智能”,而是“空间智能”,也就是理解和操作三维物理世界的能力。

她认为,未来的AI系统可能是“世界模型”(World Model)。它的核心能力是理解三维空间、物理规律和因果关系。它不是通过学习文本理解世界,而是通过观察视频、图像、传感器数据来建立对物理世界的认知。

世界模型使用严格的逻辑规则和数学证明技术,而不是像现在的大语言模型一样依赖统计模式。

谷歌DeepMind开发的AlphaGeometry就是这个方向的例子,它能够解决奥林匹克竞赛级别的几何问题,靠的不是语言模型,而是符号推理系统和神经网络的结合。

图灵奖得主、Meta前首席AI科学家杨立昆(Yann LeCun)对语言模型路径的批评更加直接。他形容这条路径是“给鹦鹉喂更大的芯片”。

在他看来,语言模型只是在学习统计规律,在做模式匹配,并没有真正理解世界。要实现真正的智能,必须让AI建立对物理世界的模型,理解物体、空间、时间、因果关系这些基本概念。

彼时,大语言模型将会成为“翻译官”。当用户用自然语言提出需求时,大语言模型负责理解需求,把它翻译成机器能处理的指令,分配给合适的像是世界模型这样的子系统来执行。

当任务完成后,大语言模型再把结果翻译成自然流畅的人类语言输出给用户。

OpenAI和Anthropic则是守旧派。

奥特曼认为,只要把语言模型继续放大,投入更多数据和算力,智能就会“自动涌现”。

他相信,当模型规模达到某个临界点时,会突然展现出质的飞跃,获得真正的理解能力和推理能力。这个观点在业内被称为“scaling hypothesis”(规模假说)。

OpenAI联合创始人兼首席科学家伊尔亚·苏兹科维(Ilya Sutskever)的观点是压缩就是理解。

他坦言,“如果你能把全世界的数据无损地压缩进一个大语言模型的神经网络,那么这个模型就在内部构建出了一个关于这个世界的真实模型。”

Anthropic的联合创始人杰拉德·卡普兰(Jared Kaplan)则认为语言模型本身可能不是智能,但可以成为智能的基础。他认为通过改进训练方法、增强安全性对齐、结合其他技术,语言模型路径仍然有潜力达到AGI。

MIT的认知学家伊芙琳娜·费多林柯(Evelina Fedorenko)以及多位MIT和伯克利的学者,在《Nature》期刊上发表文章,他们指出:语言不是思维,人类的思维是独立于语言的。婴儿在学会说话之前就已经有了对物理世界的理解,对因果关系的认知。盲人和聋人虽然缺失某些感官通道,但思维能力并不受影响。

语言主要是交流工具而非思维工具,语言模型也就不可能是真正的人工智能。

(0)
小多多的头像小多多创始人

相关推荐

  • 从中产到全民,知本洞察—王鑫解读家庭资产配置的底层意义_行业动态

    在北京工作的李先生是一名典型的中年职场人。他上有年迈父母需要照顾,下有孩子正在读书,自己和妻子还背着房贷。父母担心养老金是否足以覆盖未来的医疗支出,妻子忧虑孩子的教育成本越来越高,而李先生则在想:如果家庭突然遇到风险,手里的资产能不能撑住?一个周末的晚餐,三代人围坐在餐桌旁。父亲感慨:“以后要是需

    2025年9月29日
  • 领航HMO全球创新新加坡HereMOM携手HMO专家共促6HMOs母乳精华素上市_行业动态

    近日,HMO在亚洲婴幼儿营养领域的科学创新与应用前瞻暨HereMOM母乳精华素科学研讨会在中国北京颐和安缦酒店召开。本次研讨会由北京食品学会指导,由新加坡HereMOM主办。旨在探讨母乳低聚糖(HMOs)在亚洲婴幼儿营养领域的科学创新与应用前瞻。北京食品学会理事长罗云波教授、北京大学公共卫生学院张

    2024年10月24日 创投
  • 衣邦人方琴当选杭州市钱塘区女企业家协会第一届会长_行业动态

    12月8日,杭州市钱塘区女企业家协会成立仪式暨第 一届第 一次会员大会召开。杭州市妇联党组成员、副主席叶琦,钱塘区党工委委员、区委常委、组织部部长李丰,区人大常委会副主任李红,钱塘区管委会副主任、副区长潘伟红,区政协副主席包莹莹等出席会议。杭州市女企业家协会会长徐力受邀参加大会并致贺词,协会第 一

    2023年12月12日 创投
  • 比亚迪走出一群VC

    VC圈悄然崛起一支比亚迪系。投资界从中基协官网获悉,一支名为深圳市阿玛拉博海创业投资合伙企业(有限合伙)的基金完成备案,基金类型为创业投资基金。穿透下来,该基金背后实控人为比亚迪元老人物吴经胜:早在1995年就加入比亚迪,一路做到比亚迪副总裁,分管财务及投资业务。2019年,吴经胜从比亚迪辞职,此后

    2024年1月28日
  • 「土味」回潮,「摇子」平反

    最近,在短视频平台上搜索“2024年毕业生秋招”,会发现两道互联网奇景:一个是对于网红羊毛月的声讨,另一个则是张诗尧发起的青海摇秋招。前者是嘲笑00后找不到工作,而后者则是要给年轻人提供就业岗位。曾几何时,“社会摇”连同“喊麦”等被视为小众文化的边缘产物,爱好者被冠以“二流子”、“混子”、“社会人”

    2024年12月17日 创投
  • 「OpenGMV」获千万元Pre-A轮融资,以收入分成方式投资中小电商

    投资界(ID:pedaily2012)8月23日消息,据36氪,创新投资和金融科技平台「OpenGMV」日前完成千万级Pre-A轮融资,投资方为产业投资方、知名高校及个人投资者。本轮融资将用于产品研发、人才扩充和品牌推广。OpenGMV成立于2021年,通过收入分成方式投资电商创业者,为国内及跨境电

    2023年8月23日
  • 江西首只S基金完成备案

    投资界-解码LP消息,据江西日报报道,近日,江西首只私募股权二级市场基金(以下简称“S基金”)——江西润信赣投接力股权投资合伙企业(有限合伙)在中国证券投资基金业协会完成备案。该基金的落地对完善私募股权基金“募投管退”全链条服务体系、健全多层次资本市场体系具有重要意义。该S基金由省金控集团下属江西联

    2025年2月21日
  • 有一个果园怎样经营赚钱 学习一些成功经验

    作为一个非常受创业者们欢迎的项目,很多人都想知道,有一个果园的话,该怎么去经营才能赚到钱,这篇文章就跟大家聊聊这个话题,介绍一些用的到的经验! 首先就是做好果园的定位,定位是基础,…

    创投 2022年1月25日
  • LABUBU开始「降温」了?

    LABUBU很火,火到超越了普通消费者的认知。但一些降温的声音逐渐出现。近几日来,在社交平台,越来越多的声音呼吁消费者理性,有博主直言,“不管你是黄牛,还是投资者,抑或其他心理,都是时候抛掉你手里的LABUBU了。”“这个产品火过头了。”这是上述声音的共同出发点,在他们看来,无论从哪个角度来看,LA

    2025年6月18日
  • Pika6个月估值达2亿美元,斯坦福华人博士出品

    用一句话制作电影听上去天方夜谭——现在,硅谷爆火的Pika 1.0让这件事成为可能。今日,美国AI创业公司Pika Labs发布了全新的文生视频产品Pika 1.0。用Pika 1.0制作视频几乎不需要任何门槛——用户只需要输入一句话,就可以生成你想要的各种风格的视频,并通过简单的描述,更改视频中的

    2023年11月30日 创投
  • 难看的鞋子千千万,赚钱的偏就这几双

    “时尚是场轮回”这句话已经说麻了,是不混时尚圈的普通人也能诌两句的程度,把它拿来当文章的开头,实话说,我都觉得有点俗。但又不得不承认,话有多烂,就有多真。你看,丑鞋当道的今天,不就是*的证明。从实际流行的情况来看,卡骆驰(Crocs)、勃肯(Birkenstock)和UGG雪地靴可以并称为当代最知名

    创投 2023年9月15日
  • MLOps服务商「星鲸科技」获数千万元天使轮融资

    MLOps服务商「星鲸科技」获数千万元天使轮融资,目前的星鲸Starwhale开源版本既支持企业端部署,也支持个人开发使用。

    2023年6月5日
  • 上海迪士尼这次打的是什么算盘?

    “赶在6月11日之前,最后续一次迪士尼年卡,纪念一下。”得知迪士尼年卡调整后,迪士尼“真爱粉”琳达无奈之余,还是决定续卡一次。6月7日上午,上海迪士尼度假区在年卡卡种、使用权益等方面做出调整。全新的上海迪士尼乐园年卡将包括无限钻石卡、奇梦翡翠卡和幻彩珍珠卡。对比此前的“年卡家族”发现,标准价为275

    2024年6月13日
  • 阿里又一平台「大降价」,这些商家慌了

    继淘宝天猫卷低价之后,阿里旗下又一平台——盒马,也开始打价格战了。近期,盒马推出一款榴莲千层蛋糕,定价比对手山姆低了22%,引发消费者抢购。山姆随即应战,掀起了一波又一波降价浪潮。这轮价格战,也从榴莲千层这单一产品,扩大到多个品类。截至发稿前,盒马与山姆的战争,已扩大至至15个城市。盒马向山姆“宣战

    创投 2023年8月24日
  • 欧洲的电池之光,灭了

    欧洲电池行业,一个全村的希望要熄火了。Northvolt,一家被欧洲资本捧在手心的电池巨头,正式提交破产保护,创始人兼首席执行官也选择离任。不仅8年时间烧光了150亿美元(约合人民币1087亿)的融资,还背着420亿的债务,如今却只剩下2.2亿元人民币维持运营。最新消息是,其第二大股东高盛也要准备抛

    2024年12月1日