用AI生成数据训练AI,最终只会模型崩溃

用AI生成数据训练AI,最终只会模型崩溃,大语言模型生成的文本在网络上发布得越多,信息网络本身就变得越发模糊、难以获取有效真实信息。

人尽皆知:过去的科幻文学家预言了潜艇、卫星、人工智能等后世科技里程碑。然而科幻文学家们的预言中,其实应验的乌鸦嘴不比正面成就少,比如DDOS网络攻击、个人生物信息盗窃、和人工智能模型的退化。

2023年2月,美国华裔科幻文学家特德·姜发表文章称:ChatGPT等大语言模型,实质是对互联网语料库的有损模糊压缩,如同JPEG格式之于原始高清图片。

按特德·姜的观点,用大语言模型生成的文本来训练新的模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多的信息,最终成品质量只会越来越差。大语言模型生成的文本在网络上发布得越多,信息网络本身就变得越发模糊、难以获取有效真实信息。

2023年6月中,牛津、剑桥、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者发布的论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》在业界流传开来。论文中用实验结果证明了特德·姜的预言:用AI生成数据训练新的AI,最终会让新的AI模型退化以至崩溃。

01 “粪口循环”9次,就能让大语言模型崩溃

这些研究者们发现,在训练新的神经网络AI模型时,使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一新模型的退化过程与结果称为“模型崩溃”。

按论文所述,不管受训的新模型功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使模型处在近乎理想状态的长时间学习条件亦如此。

论文一作伊利亚·苏玛利沃夫(Ilia Shumailov)称,AI生成数据中的错误会极快沉淀,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期与晚期两种。在早期时,被喂生成数据的AI模型会开始失去原初数据分布的信息;在晚期,被喂生成数据的AI模型会吐出完全不符合现实、不相关原初底层数据的结果。

而且与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI一直保有对之前学习过的原初底层数据的记忆,但极其固执,错误会千篇一律且难以矫正,模型将持续甚至强化将错误结果认为是正确的结论。

研究者们先用小模型试验起,用相同模型生成的数据训练同一模型。以此方法在高斯混合模型(GMM)上实验,拿AI分辨人工生成的不同正态分布。结果是在如此训练50次后模型开始出错到无法分辨原初底层数据。训练到两千次后,模型的错误结果收敛到每次基本雷同毫无变化。

以同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原初底层数据无关,20次后错误结果就开始收敛至基本雷同。

以上的小模型的原初数据量小,或许易于迷惑。研究者再用现在商用广泛的OPT-125m文本生成模型实验,此模型由Meta 公司开发,参数量1.25亿。研究者先用有1亿词元的“维基文本库2”数据集喂给模型,跑出同样词元量的生成结果数据集。再用生成结果数据集反复训练OPT-125m模型。

结果是,在研究者输入提示词之后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句。被如此训练1次的大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文。被如此训练7次的大模型吐出的是完全与初始提示词无关的文本,9次后大模型的生成文本就是完全不知所云的车轱辘话。

02 “模型崩溃”,是因为AI与生俱来的的统计特性

“模型崩溃”的原因其实并不难懂。概言之,与特德·姜、马斯克这些名人们嘲笑生成式AI的说辞很相近:这些大模型本质上是高端统计学应用,离“智能”的实质还差得远。

用AI生成内容来训练AI的话,无可避免就会踩进“统计近似值偏差”的坑里。实质是高端统计程序的神经网络模型们,天然会高估、过于重视大概率的通常值,也会低估、过于忽视小概率的非常值。

这些模型生成的结果无法规避以上缺陷,持续用来再训练新模型,数据的多样性会越来越小、符合真实的正确度会越来越有限、“近似值拟合”会越来越严重。用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。

用论文作者之一罗斯·安德森(Ross Anderson)的话说,这就如同用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。

理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。

在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03 模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界,此发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。

数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。

一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。

二是老实花钱买。北京时间6月17日0点,《金融时报》*报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。

虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI 模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

(0)
小多多的头像小多多创始人

相关推荐

  • 万兴科技出席数字中国建设峰会签约“国资央企SaaS应用服务共享平台伙伴”_行业动态

    近日,创意软件A股上市公司万兴科技在政企方向再突破,与钉钉、金山办公、有道云笔记等业内知名品牌一同入围第 一新声和天眼查联合发布的“2023…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    创投 2023年4月28日
  • 意才基金:2023“青岛·中国财富论坛”圆满落幕意才持续助力中国财富管理市场发展_行业动态

    7月8日,第九届“青岛•中国财富论坛”在青岛香格里拉大酒店举行。本次论坛以“新变局 新财富 新动能”为主题,来自国内外政商学界的专家学者齐聚…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    创投 2023年7月14日
  • 一所超市带火一座城

    年轻人的旅游打卡地,又多了一个“许昌胖东来”。携程数据显示,在刚刚过去的十一,许昌成为新的旅游黑马。位于河南中部的许昌市,既不是洛阳、开封那样的古都,也没有声名在外的石窟和古刹,之所以能吸引全国各地游客前来打卡,全都是因为一家网红超市——胖东来。尤其是今年5月刚开业、面积达7万余平米的胖东来天使城店

    2023年10月11日 创投
  • 投资界24h|上海要设1000亿产业基金;90后女生要去IPO敲钟了;天涯社区官网已无法打开

    投资界24h|上海要设1000亿产业基金;90后女生要去IPO敲钟了;天涯社区官网已无法打开,近日,有网友给小米创办人雷军留言,他想要更小尺寸的手机。对此,雷军表示:“更小屏幕的手机消费群体太小,销量支撑不了旗舰的研发成本。”

    创投 2023年4月26日
  • 三维CAD工业软件和工业云软件提供商「新迪数字」完成过亿元D轮融资

    三维CAD工业软件和工业云软件提供商「新迪数字」完成过亿元D轮融资,近日,新迪数字重磅发布天工CAD2023和天工云CAD2023两款新品;同时宣布新迪数字总部正式落地上海闵行区。

    创投 2023年4月26日
  • 虎头局狂飙失速,两年20亿泡沫破灭

    虎头局狂飙失速,两年20亿泡沫破灭,“网红”不是虎头局们的原罪,它们更该思考的是,如何由网红成为长红。

    创投 2023年4月3日
  • 美团「卷」不动香港外卖市场

    美团「卷」不动香港外卖市场,但即使如此,美团KeeTa想要成功打开香港外卖市场,难度依然非常大。香港市场的体量本就有限,经年累月的消费习惯又难以在短期内改变,导致外卖需求难以调动。

    创投 2023年7月4日
  • 2023年了,还有大厂想做社交?

    即便微信的用户已经达到了13.27亿,几乎覆盖全中国的人口,2023年了,仍有大厂并不死心,希望在这个赛道上分得一席之地。近期,蔡菜在使用支付宝为滴滴打车订单付款时发现,“付完款,支付宝页面出现了一个‘入群有优惠’的提示,可以加入滴滴的支付宝福利群,有优惠券可以领。”另一端,继群聊功能之后,小羊发现

    2023年10月24日 创投
  • 拼多多:优生晚唱榜

    凶猛的拼多多(PDD.US),交出了一份“炸裂”的财报。8月29日,拼多多发布2023年第二季度财报。数据显示,2023年Q2,拼多多营收522.8亿元,同比增长66%,远超市场预期的432.82亿元近百亿元。比2023年Q1的58%再提升7个百分点。此外,2023年Q2拼多多净利润131亿元,同比

    创投 2023年8月30日
  • 深圳走出一家人工心脏「黑马」,要IPO了!

    深圳走出一家人工心脏「黑马」,要IPO了!,众所周知,人工心脏向来是心血管器械的技术高地,入局门槛高,如今有公司想要冲击资本市场,其发展动态还是值得一看。

    2023年5月24日 创投
  • 阿斯巴甜疑似致癌,想吃口甜太难了

    阿斯巴甜疑似致癌,想吃口甜太难了,世界上最常见的人工甜味剂之一——阿斯巴甜将于今年7月首次被世界卫生组织(WHO)的癌症研究机构——国际癌症研究机构(IARC)列为“可能对人类致癌的物质”。

    创投 2023年7月10日
  • 中国支付,渗入大马

    不久前与中国互免签证的马来西亚,正处于传统与现代、本土与外来、线上与线下的交织碰撞之中。如今的马来西亚分为东西两大部分:西半边处于马来半岛,故被称为“西马”,而东边部分位于婆罗洲岛与印尼相邻。而在1963年东马和西马合并之后,“马来亚(Malaya)”也扩展成为“马来西亚(Malaysia)”,也就

    创投 2024年1月5日
  • 新茶饮2023:茶底革命扯掉旧王冠

    新茶饮永不眠。喜茶和奈雪的巨头之争未休,今年又迎来了新王。根据第三方数据显示,截至11月份国内市场上霸王茶姬以2758的门店数据超越奈雪;再放眼全球市场,刚刚在12月份开出3000家门店的霸王茶姬,甚至和喜茶也不相上下。门店数量超越喜茶的不少,但与茶百道、古茗等二线品牌不同,霸王茶姬选址在商场的占比

    创投 2023年12月15日
  • 流脑疫苗成新增长点,后疫情时代的康希诺未来何在?

    又到了一年一度的中报季,面对着各家上市公司的财报,如何分析这些成绩单引发了整个市场的关注,而在这其中疫苗产业明星康希诺无疑也是吸引了一众市场参与方,面对着康希诺的财报我们到底该怎么分析?01 康希诺中报发布据中新经纬的报道,康希诺披露《2023年半年度报告》显示,上半年实现营业收入2590.78万元

    2023年8月31日
  • 别等了,苹果汽车要到2028年

    造车十年,苹果汽车要向现实低头了!外媒最新报道,为了让汽车项目尽快落地,苹果不得不调整研发策略和目标,转向更容易实现,并且非常不性感的目标。首先就是将电动汽车目标发布日期延后, 由最早在2026年正式推出电动汽车,延迟到最早2028年正式推出。最关键的是,苹果还降低了这款车的智能驾驶水平,从L4级降

    2024年1月24日