OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述,AI理解AI,然后很快,AI训练AI,然后再过几年,AI创造新的AI。

就算在新产品满天飞,商业文明正在被 AI 重建的当下,我们仍然不知道,这些令人惊叹的技术是如何运作的。

AI,语言模型,它是个黑箱(black box),人类无法理解,我们甚至不知道怎样研究才能够理解。

如果,研究这个黑箱的不是人类,而是 AI 自己呢?

这是一个令人好奇但又非常危险的想法。因为你甚至不知道,这一研究方法产生的结果,是否会彻底颠覆多年来人类对人脑和 AI 的理解。

但是有人这样做了。几小时前,OpenAI 发布了最新的研究成果,他们GPT-4 解释 GPT-2 的行为,获得了初步的成果。

毫不夸张地说,人们震惊极了:「求求你们让它离觉醒远点吧!」

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

「AI 理解 AI,然后很快,AI 训练 AI,然后再过几年,AI 创造新的 AI。」

但客观来说,学术界为之感到兴奋:「疯了,OpenAI 刚刚搞定了可解释性问题。」

人与机器之间是 GPT-4

OpenAI 刚刚在官网发布博客文章《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models)。

简单来说,他们开发了一个工具,调用 GPT-4 来计算出其他架构更简单的语言模型上神经元的行为,这次针对的是 GPT-2,发布于 4 年前的开源大模型。

大模型(LLM)和人脑一样,由「神经元」(neurons)组成,这些神经元会观察文本中的特定规律,进而影响到模型本身生产的文本。

举例来说,如果有一个针对「漫威超级英雄」的神经元,当用户向模型提问「哪个超级英雄的能力最强」时,这个神经元就会提高模型在回答中说出漫威英雄的概率。

OpenAI 开发的工具利用这种规则制定了一套评估流程。

开始之前,先让 GPT-2 运行文本序列,等待某个特定神经元被频繁「激活」的情况。

然后有三个评估步骤:

*步,让 GPT-4 针对这段文本,生成解释。比如在下面的案例中,神经元主要针对漫威内容。GPT-4 接收到文本和激活情况后,判断这与电影、角色和娱乐有关。

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

第二步,用 GPT-4 模拟这个 GPT-2 的神经元接下来会做什么。下图就是 GPT-4 生成的模拟内容。

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

最后一步,对比评估打分。对比 4 代模拟神经元和 2 代真实神经元的结果,看 GPT-4 猜的有多准。

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

通过这样的方法,OpenAI 对每个神经元的行为作出了初步的自然语言解释,并对这种解释和实际行为的匹配程度进行了评分。

最终他们对 GPT-2 中 307200 个神经元全部进行了解释,这些解释汇编成数据集,与工具代码一起在 GitHub 上发布。

超越语言的机器

人类无法理解的机器

据 OpenAI 在博客文章中表示,目前 GPT-4 生成的解释还不*,尤其要解释比 GPT-2 更大的模型时,表现效果很差,「可能是因为后面的 layer 更难解释」。

对于 GPT-2 解释的评分大多也非常低,仅有 1000 个左右的解释获得了较高的评分(0.8 以上)。

OpenAI 可拓展对齐团队的 Jeff Wu 表示,「大多数解释的得分很低,或者无法解释实际神经元那么多的行为。比如,许多神经元以一种难以判断的方式保持活跃,它们在五六件事上保持激活,但却没有可以辨别的模式。有时候存在明显的模式,但 GPT-4 有无法找到它。」

虽然现阶段成绩不好,但是 OpenAI 却比较有信心,他们认为可以使用机器学习的方式提高 GPT-4 产出解释的能力。

比如通过反复产出解释,并根据激活情况修改解释;或者使用更大的模型作出解释;以及调整解释模型的结构等等。

OpenAI 还提到,这一方法目前还有很多局限性。

使用简短的自然语言进行解释,也许并不匹配神经元可能非常复杂的行为,不能简洁地进行描述。神经元可能会具备多个不同概念,也可能,会具备一个人类没有语言描述甚至无法理解的概念。

最终 OpenAI 希望能够自动化找到并解释能够实现复杂行为的整个神经回路,而目前的方法只解释了神经元的行为,并没有涉及下游影响。

解释了神经元的行为,但没有解释产生这种行为的机制。这意味着即使是拿了高分的解释,也只能描述相关性。

整个过程是计算密集型的。

在论文中,OpenAI 表示:「语言模型可能代表了人类无法用语言表达的陌生概念。这可能是因为语言模型关心不同的事情,比如统计结构对下一个token预测任务有用,或者因为模型已经发现了人类尚未发现的自然的抽象,例如在不同领域的类似概念家族。」

它把 LLM 的这种属性,称为 Alien Feature,在生物领域翻译为「异类特征」。

Founder Park 微信后台回复「解释神经元论文」,获取论文链接和中英对照 PDF 链接(机翻)。

把对齐问题也交给 AI

「我们正试图开发预测『AI 系统会出现什么问题』的方法,」OpenAI 可解释性团队负责人 William Saunders 对媒体说,「我们希望能够真正做到,让这些模型的行为和生产的回答是可以被信任的。」

Sam Altman 也转发博客文章称:GPT-4 对 GPT-2 做了一些可解释性工作。

可解释性(interpretability)是机器学习的研究子领域,指的是对模型的行为有清晰的理解和对模型结果的理解能力。

简单来说,目的就是解释机器学习模型「如何做到」(how)。

2019 年开始,可解释性成为机器学习的重要领域,相关研究有助于开发人员对模型进行优化和调整。针对当下 AI 模型大规模应用时,亟需解决的可信度(trust)、安全性(safety)和决策参考(decision making)等问题。

如果我们不知道 AI 是如何作出决策的,始终把它当做一个黑箱,那么就算 AI 在各种场景下表现得再*,也无法解决部分人类的信任问题。

OpenAI 这次使用 GPT-4 来解决可解释性的问题,就是希望能够使用自动化的方式,让机器完成 AI 研究。

「这是我们对齐研究的第三支柱的一部分:我们希望自动化对齐研究。令人期待的是,这一方向能让它(对齐)与 AI 发展的步伐相匹配。」

在 2022 年夏天,OpenAI 曾发布文章《我们做对齐研究的方法》(Our approach to alignment research)。

文中提到,宏观来看,OpenAI 的对齐研究将由三大支柱支撑:

1、利用人工反馈训练 AI

2、训练 AI 系统协助人类评估

3、训练 AI 系统进行对齐研究

「语言模型非常适合自动化对齐研究,因为它们通过阅读互联网『预装』了大量有关人类价值观的知识和信息。开箱即用,它们不是独立代理,因此不会在世界上追求自己的目标。」

太快了

连认知都范式革命了

虽然 OpenAI 本意很好,但是这样的研究成果着实吓坏了网友。

OpenAI 的推文下梗图横飞,有不少人在认真地建议 OpenAI 搞慢点。

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

「用我们不理解的东西,解释另一个我们不理解的东西,这合理吗?」

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述

「护栏都被你撤了」

「这太迷人了,但也让我感到极度不适。」

「自然创造了人类来理解自然。我们创造了 GPT-4 来理解自己。」

「我们要怎么判断解释者是好的?这就像… 谁监督着监督者?」(who watches the watchers)

还有人看到了更深的一层:

「大模型很快就能比人类更好地解释他们自己的思维过程,我想知道我们未来要创造多少新的词汇,来描述那些 AI 发现的概念(概念本身也不准确)?我们还没有一个合适的词描述它们。或者,我们是否会觉得这些概念有意义?它们又能教会我们如何认识自己呢?」

另一网友回应道:「人类本身对自己行为的解释,大多是谎言、捏造、幻觉、错误的记忆、事后推理,就像 AI 一样。」

(0)
小多多的头像小多多创始人

相关推荐

  • 万亿英伟达,害怕失去中国

    万亿英伟达,害怕失去中国,如今,英伟达的状况比2020年又跃升了一个台阶,但来自竞争对手和地缘政治因素的挑战也越来越明显。“公司距离倒闭只有30天”的焦虑感,也许正是正要叩响“万亿俱乐部”大门的英伟达最需要的。

    创投 2023年5月27日
  • 卷起来的文旅局长,都在偷练马拉松

    对于有趣人类来说,Citywalk已经不再是打开城市的*方式了。真正时髦的人,全员加速中,“run”起来了。原本只属于少数人爱好的马拉松,成为了越来越多城市的狂欢。据中国马拉松信息平台统计,2023年全国共举办580场赛事,范围涉及31个省级行政区,参赛总人次550万。这届打工人,平日里已是在城市楼

    2024年1月31日 创投
  • 新造车10月成绩单

    新造车10月的销量成绩出来了。这个月,很多品牌表现不错,创造了新纪录。比如,小鹏终于实现月交付两万辆,理想冲破4万辆,比亚迪则首次突破30万辆。就连销量连续低迷了大半年的问界,也终于起死回生,在10月实现了12700辆的交付量。总体上,这是新造车高歌猛进的一个月。从结构上来看,在1万到2万辆的交付量

    创投 2023年11月2日
  • 办理临时身份证需要什么 操作流程介绍

    办理临时身份证需要什么?据悉临时居民身份证管理办法第十一条公民申领临时居民身份证,应当交验居民户口簿、本人近期一寸免冠黑白相片,并在其《居民身份证申领登记表》中加以注明。通常做法是…

    创投 2022年1月25日
  • 九方金融:2022年宏观经济形势与资产配置展望

    肖立晟[1]、尤众元[2] 2021年,全球经济迎来十年来最强劲的增长。海外宽松的货币政策、强有力的财政刺激措施为经济高速增长铺平了道路。在此背景下,中国经济出现了超预期的出口需求…

    2022年1月25日 创投
  • 普通人可以做的副业 给自己的未来多一种选择

    作为一个普普通通的打工人生活的压力其实大家都有很深刻的感受,所以不少人都想在工作之外还能再多一份收入,接下来的内容就是给大家介绍几种适合尝试的副业项目! 第一个非常推荐的项目就是做…

    创投 2022年1月25日
  • 创于硅谷,锂电池硅基负极材料企业「GruEnergy」完成新一轮融资

    创于硅谷,锂电池硅基负极材料企业「GruEnergy」完成新一轮融资,GruEnergy于2017年创立于美国硅谷,致力于锂电池硅碳负极、纯硅负极的研发和生产。

    2023年5月8日
  • 终究是微信替腾讯扛下了所有

    “审慎乐观。”腾讯董事会主席兼首席执行官马化腾与总裁刘炽平在 2023 上半年战略会上的意志传达,恰如其分投射到了最新财报里。8 月 16 日港股盘后,腾讯控股(00700.HK)向市场递上 2023Q2 成绩单:营收 1492.08 亿元,同比增长 11%,低于市场预期 1519.55 亿元;净利

    2023年8月19日 创投
  • 非洲机王,是个浙江人

    “铺天盖地,从近到远,密密麻麻,都是Tecno Tecno Tecno Tecno Tecno Tecno,每个店面的poster,每个bill board,每块玻璃上,每个店面都是Tecno的广告。”一位中国记者,在东非看到这一幕,称自己:“走了这么多国家,*次见到一个中国品牌做到如此让人服气”。

    2023年8月22日
  • 麦当劳涨价,还有一批品牌已悄悄提价

    月初刚喊完要在中国冲刺万店,月末麦当劳就官宣要涨价了。根据麦当劳中国官方说法,12月27日起,主要产品全线提价。当然,涨价的不只有麦当劳一家。今年以来,海底捞、蜜雪冰城、1點點等品牌都有产品提价的动作,调整幅度多数为1-3元。餐饮市场新一轮涨价潮要来了?01.麦当劳中国90%产品全线提价,套餐涨价1

    创投 2023年12月28日
  • 刚刚,华平投资宣布亚洲新一代领导团队

    今日(12月4日),华平投资正式宣布,将凭借其在中国、印度和东南亚地区积累的丰富经验与业绩,进一步拓展其亚洲业务。与此同时,华平投资新一轮人事调整出炉——Vishal Mahadevia晋升为新设立的华平投资亚洲私募股权投资总裁,方敏和周朗升任为华平投资中国私募股权投资联席总裁。在华平投资任职20年

    2023年12月4日
  • 花皙蔻新妆大赏票选双第一实力印证牡丹抗老卓越功效_行业动态

    2023年,在竞争激烈的美妆市场,哪些品牌与产品星光熠熠,深得人心?由C2CC传媒×新妆发起的全球美妆评选活动—「新妆大赏」,秉持“聚集美业…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    2023年5月8日 创投
  • 年底离职原因怎么写最合适 还是要照顾公司的面子

    每当春节的时间点临近年底的离职潮就会如期而至,很多人都会在这个时间选择辞掉旧工作换份新工作,那么想要在年底离职的话原因该怎么写呢?接下来就在这篇文章中介绍一些比较好的理由! 首先最…

    创投 2022年1月25日
  • 北美爆火的「狼人」短剧,来自中国APP

    国产剧出海历史久远,早在上世纪90年代开始,以四大名著翻拍剧为代表的剧集就在东南亚掀起热潮。2019年,随着国内长视频平台“优爱腾”(优酷、爱奇艺、腾讯)出海,在东南亚多地开设办公室、组建团队以来,国产剧出海走向精细化、规模化。今年下半年,另一种形态的剧集——小程序短剧逐渐在海外爆发。不同于动辄40

    创投 2023年9月27日
  • 2024,全托管并非终极答案

    去海外找增量,这大概是当下国内互联网企业的共识,其中以电商行业尤甚。阿里近期发布的 2024 财年中期报告显示,淘天集团收入同比增长 8%,同期国际零售商业整体收入增长 66%,海外业务已是*活力的增长引擎。市场普遍认为,拼多多三季报中交易服务营收同比增长 315% 的成绩离不开多多跨境的贡献。SH

    2024年1月26日