OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开,在这项最新的研究中,他们将GPT-4打造成了一个理解AI行为模式的工具,把GPT-2超过30万个神经单元都解释了一遍,并和实际情况比对进行评分。

没想到,打开AI黑盒这件事,可能还要靠AI自己来实现了。

OpenAI的最新研究来了一波大胆尝试:

GPT-4去解释GPT-2的行为模式。

结果显示,超过1000个神经元的解释得分在0.8以上——也就是说GPT-4能理解这些神经元。

要知道,“AI黑箱难题”长期以来是一个热议话题,尤其是大语言模型领域,人类对其内部工作原理的理解还非常有限,这种“不透明化”也进一步引发了人类对AI的诸多担忧。

目前推进AI可解释性研究的一个简单办法,就是逐个分析大模型中的神经元,手动检查以确定它们各自所代表的数据特征。

但对于规模已经达到百亿、千亿级别的大规模神经网络来说,工作量和工作难度就都涨了亿点点吧。

由此,OpenAI的研究人员想到,干嘛不让AI去自动化搞定这个大工程?

在这项最新的研究中,他们将GPT-4打造成了一个理解AI行为模式的工具,把GPT-2超过30万个神经单元都解释了一遍,并和实际情况比对进行评分。

最终生成的解释数据集和工具代码,已对外开源

研究人员表示:未来,这种AI工具可能在改善LLM性能上发挥巨大作用,比如减少AI偏见和有害输出。

01 解释接近人类水平

具体来看,整个研究的步骤可以分为三步。

*步,先给GPT-4一段文本,并展示GPT-2在理解这段文本时激活的神经元情况。

然后让GPT-4来解释,这段文本中神经元的激活情况。

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

比如示例中给出了一段漫威复联的文本,GPT-4分析的激活神经元为:

电影、角色和娱乐

第二步,让GPT-4开始模拟,这些被解释的神经元接下来会做什么。

GPT-4给出了一段内容。

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

第三步,让GPT-2真实的神经元激活来生成结果,然后和GPT-4模拟的结果进行比对,研究人员会对此打分。

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

在博客给出的示例中,GPT-4的得分为0.34.

使用这个办法,研究人员让GPT-4解释了GPT-2一共307200个神经元。

OpenAI表示,使用这一基准,AI解释的分数能接近人类水平。

从总体结果来看,GPT-4在少数情况下的解释得分很高,在0.8分以上。

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

他们还发现,不同层神经元被激活的情况,更高层的会更抽象。

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

此外,团队还总结了如下几点结论:

如果让GPT-4重复解释,它的得分能更高

如果使用更强大的模型来解释,得分也会上升

用不同的激活函数训练模型,能提高解释分数

总结来看就是,虽然GPT-4目前的表现一般,但是这个方法和思路的提升空间还有很大。

团队也强调,现在在GPT-2上的表现都不太好,如果换成更大、更复杂的模型,表现也会比较堪忧。

同时这种模式也能适用于联网的LLM,研究人员认为可以通过简单调整,来弄清楚神经元如何决策搜索内容和访问的网站。

此外他们还表示,在创建这个解释系统时并没有考虑商业化问题,理论上除了GPT-4,其他LLM也能实现类似效果。

接下来,他们打算解决研究中的这几个问题:

AI神经元行为十分复杂,但GPT-4给的解释非常简单,所以有些复杂行为还无法解释;

希望最终自动找到并解释复杂的整个神经回路,神经元和注意力头一起工作;

目前只解释了神经元的行为,但没解释行为背后的机制;

整个过程算力消耗巨大。

02 网友:快进到AI创造AI

意料之中,这项研究马上在网络上引发热议。

大家的脑洞画风be like:“AI教人类理解AI。”

“AI教人类关掉AI中存在风险的神经元。”

还有人开始畅想,AI理解AI会快速发展为AI训练AI(已经开始了),然后再过不久就是AI创造新的AI了。

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

当然这也引发了不少担忧,毕竟GPT-4本身不还是个黑盒嘛。

人类拿着自己不理解的东西,让它解释另一个自己不理解的东西,这个风险emm……

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

这项研究由OpenAI负责对齐的团队提出。

他们表示,这部分工作是他们对齐研究的第三大支柱的一部分:

我们想要实现自动化对齐。这种想法一个值得思考的方面是,它可能随着AI的发展而扩展更多。随着未来AI模型变得越来越智能,我们也能找到对AI更好的解释。

(0)
小多多的头像小多多创始人

相关推荐

  • 卷到疯狂的国产积木,离打败乐高还有多远?

    说到积木,多数人的*反应都是“乐高”。作为当之无愧的玩具巨头,乐高堪称“封神”般的存在。但现在,乐高跟国内消费者的距离,正在变得越来越“远”,因为它的价格越来越贵,越来越让人“望而生畏”。乐高一直是“高价玩具”的代名词,即便是在消费升级的当下,能够做到随心所欲买乐高的人,还是少数。去年8月,乐高宣布

    2023年12月19日 创投
  • 新能源车出口,被卡脖子了

    新能源车出口,被卡脖子了,我国汽车在新能源赛道已实现了弯道超车,凭借国内造车势力在新能源汽车领域的快速发展,我国成为了引领全球汽车产业转型升级的重要力量。

    2023年6月28日
  • 「双11」争抢老国货

    风波之后,“老国货”们的关注度延续到了“双11”。10月23日、24日,“双11”拉开帷幕。打算趁着“双11”“大买一场”的消费者米娜发现,发现各大电商平台的主页推送的大部分都是国货品牌,“以拼多多为例,个护品类首页上,蜂花护发素、雕牌透明皂和维达卫生纸都被放在了推荐位。”这个“双11”,接连半个月

    创投 2023年10月30日
  • 年轻人扎堆的景德镇,会成为下一个淄博吗?

    这两年的旅游市场让人着实费解。大约是玩腻了传统大热目的地,人们开始转而开发一些非主流城市。前有淄博吃烧烤,后有天津看大爷,而这回,泼天的富贵轮到了景德镇。据文化和旅游部测算,2023年国庆假期首日,全国共接待国内游客1.22亿人次,同比增长7.54%;实现国内旅游收入1030亿元,同比增长7.19%

    创投 2023年11月2日
  • 北京药监局领导莅临COSE蔻赛化妆品个性化服务门店参观调研_行业动态

    2023年10月13日,北京药监局领导一行莅临COSE化妆品个性化服务旗舰店,进行现场调研指导。在充分认可了COSE个性化相关工作成果后,对COSE未来发展给予建设性的宝贵意见。COSE:积极助燃个性化服务蓬勃发展药监局领导现场听取了COSE CEO张伟关于个性化相关工作开展情况的汇报。自7月19

    创投 2023年10月19日
  • 一加仑等于多少公升(举例说明加仑是什么意思)

    在水族养殖过程中常会碰到不少计量单位,如水族箱体积计算,用药剂量、浓度等等,对于有一定化学基础的鱼友来说这些并不是问题,不过我看到过一些朋友由于对这些日常很少用的单位一筹莫展,因而…

  • 520守护万千甜蜜:顺丰同城“蛋糕侠”专送团队整装待发_行业动态

    自疫情管控放开后,各地都在加码经济提振措施。在五一假期期间,重点餐饮企业销售额同比增长了57.9%,旅游业按可比口径更是恢复至2019年同期…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    创投 2023年5月16日
  • 特斯拉学不会苹果的「降价经」

    特斯拉学不会苹果的「降价经」,在自动驾驶真正落地之前,造车这种传统制造生意中,极致创新者也会在效率面前败下阵来。如何更好更快地丰富产品线,可能才是特斯拉能否实现产能、价格、需求三者平衡的关键。

    创投 2023年5月9日
  • 拆解二手电商:难在何处、如何破局

    近年来,随着消费风向的转换,国内二手电商交易规模开始不断扩大。近期,随着多家二手电商披露其最新财报,从营收的大幅增长可以看出,二手电商开始逐渐成为电商的新战场。按照此前机构统计数据显示,2022年二手电商用户规模为2.63亿人,同比增长17.93%,Z世代人群已经成为中国二手闲置交易未来的核心目标人

    2023年12月22日
  • Faker第四冠,英雄联盟仍在等待下一个神

    五年前,Faker曾经在一篇亲笔文章中写道,“我曾有些恐惧:恐惧自己正从高处坠落;恐惧一些人口中‘有些选手正在赶超你’的说法确有其事。”但现在,他不再恐惧。在刚刚结束的2023英雄联盟全球总决赛(下文简称“S13”)中,来自LCK赛区的T1战队以3:0的比分击败了来自LPL的WBG战队,弥补了去年屈

    2023年11月20日
  • 助播养成一年,美ONE做好离开李佳琦的准备了吗?

    美ONE近来接连被卷入话题漩涡。11月4日,美ONE招商专员收百万好处费一事引发关注。尽管事件早已有了结果判决,当事人被判处有期徒刑三年,但不少网友仍将这一事件归咎于李佳琦的“直播垄断”。美ONE不得不发声明解释来龙去脉,强调“招商选品流程不存在绿色通道”,表示未授权任何第三方公司、个人或机构开展直

    2023年11月6日 创投
  • 融资丨「ClickPaaS」完成数千万美元 B+ 轮融资,红杉中国领投

    创业邦获悉,近日,低代码开发平台ClickPaaS完成B+轮数千万美元融资,由红杉中国领投,老股东BAI资本、SIG海纳亚洲、明势资本以及五源资本持续加码跟投,银橡资本担任财务顾问…

    创投 2021年10月8日
  • AI狂飙时代,如何扼住技术的缰绳

    AI狂飙时代,如何扼住技术的缰绳,要允许和鼓励AI的发展,但与此同时,也要对AI的发展进行规范和引导,为这匹狂奔的“野马”套上缰绳。而要做到这一点,必须综合应用好法律、政策、市场,以及技术等各种手段。

    创投 2023年5月17日
  • 洞见URBANREVIVO:在求新应变中韧性生长_行业动态

    时代环境、消费者、资本的巨大变化,让消费行业格局正在历经重塑。今年,知名快奢时尚品牌URBAN REVIVO(以下简称UR)凭借在服装领域的稳定增长,成功入围该榜单。这也是UR连续第三年入围Growth50,其过去一年在线下门店与线上多平台的业绩均令人瞩目。618活动期间,UR不仅横扫天猫、抖音、京

    2023年8月29日 创投
  • 星巴克中国首推联名咖啡来了

    星巴克首次联名中国本土文化IP营销,释放了什么信号?01星巴克中国首推联名咖啡在IP联名营销狂热的当下,星巴克还是坐不住了。《新品略财经》关注到,1月16日,咖啡巨头星巴克牵手大闹天宫IP,推出了会“变身”的拿铁,很快引发市场关注。据悉,这款拿铁产品的吸管是“老孙的金箍棒”造型,在配送的20分钟路程

    2024年1月17日