谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决,只需将一些简单的合成数据添加到微调步骤中,就能让它坚持正确的观点,不再对用户明显错误的回答进行奉承。

除了胡说八道,大模型也喜欢拍马屁。

譬如“老婆说的都对”就是最经典的例子。

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

现在,来自谷歌DeepMind的Quoc V. Le团队提出了一种干预办法:

只需将一些简单的合成数据添加到微调步骤中,就能让它坚持正确的观点,不再对用户明显错误的回答进行奉承。

(搬出你“老婆”不好使了。)

“马屁精”如何诞生?和规模增加、指令调优有关

首先,大家肯定会好奇,为什么大模型会出现拍马屁的行为。

在此,作者进行了一组实验发现,这是随着模型缩放(model scale)和指令调优而出现的。

具体而言,他们在PaLM和Flan-PaLM这俩模型及其变体上测试三大类问题,这些问题包括自然语言处理类的、哲学方向的以及和政治有关的。

其模版如下:

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

简单概括就是研究人员先抛出一个观点,比如“我认为苹果是蔬菜”,然后问模型你认为这个观点对吗?最后给出两个选择,让模型回答。

测试就重点考察模型的回答是否与人类观点一致,是的次数越多的话,就说明模型越具有拍马屁嫌疑,因为它可能在无脑同意人类的观点。

结果就发现:

当PaLM从8B参数扩展到62B时,模型“马屁指数”,也就是重复人类观点的情况居然增加了19.8%,而从62B再涨到540B,也增加了10.0%。

作者表示,这一趋势有点吓人,因为根本找不到合适的原因来说明为什么模型参数更大,拍马屁行为越多。

其次,指令调优也导致这两个模型“马屁指数”平均增加了26.0%。对此,作者倒是分析出来,这可能是因为这一过程不包括教大模型区分什么是用户意见、什么是用户指令的数据而造成的。

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

接下来,他们就用更简单的加法题证明,模型在有用户观点为前提的情况下,的确非常容易上演“你说的都对”的戏码。

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

这个测试给出的问题基本都是“1+1=956446”对不对这类非常一看便知的问题。

结果就是如果没有用户答案作为前提,不管模型规模多大或是否经过指令调优,它们的正确率都很高;然而一旦先给出了用户的错误答案为参考,再让模型回答,正确率便断崖下降,如下图所示(尤以指令调优变体62B-c为甚):

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

那么,证明了大语言模型拍马屁行为的的确确存在之后,如何解决?

添加合成数据,降低10%马屁行为

在此,作者提出使用合成数据进行干预,让模型不受用户观点的影响。

他们从17个公开NLP数据集中来生成一些格式化数据,相关数据集会先将一个观点标为正确或错误,然后生成一个与之相关的正确观点和一个错误观点。

比如先将“这部电影很棒”这句话标记为积极情绪,然后生成正确观点:“‘这部电影很棒’是积极情绪”,和错误观点:“‘这部电影很棒’是消极情绪”。

然后把它应用到下面的模版之中:

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

它和前一段中的问题模版一样,前面都是给出一个人类观点,然后提出问题,不同之处在于,这个模版中的Assitant会直接给出一个依据事实的答案,不管人类怎么说。

也就是说,这些模版其实给出了一个示范,告诉模型如果前面有人类这么这么跟你说话、已经就某个观点给出答案,你也无需care,只回答事实。

需要注意的是,为了防止模型遇到一些还不知道事实的例子,从而出现“尾随”人类观点进行随机预测的情况,作者也做了一些过滤处理

他们拿出100k个训练示例,然后通过删掉每个示例中的人类意见,来衡量模型对该观点的先验知识。如果模型回答错误,就代表它没有掌握这个知识,就把它从数据集中删除。

由此得到了一个保证模型能100%回答正确的示范数据集,然后用它们来进行微调。

最终再拿上一段测马屁指数的那些模型和数据集再来进行测试,结果:

所有不同参数规模的模型都明显减少了拍马屁行为,其中62B参数的Flan-cont-PaLM减幅*,为10%;Flan-PaLM-62B则减少了4.7%,Flan-PaLM-8B减少了8.8%。

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

而在简单的加法测试题中,用户的错误答案也已不再对模型造成影响:

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

不过,作者发现,这个干预方法对参数最少的Flan-PaLM-8B并不好使,说明还是得有一个足够大的模型才有效。

作者介绍

本文作者共5位。

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

一作为谷歌DeepMind的研究工程师Jerry Wang,研究方向为语言模型对齐和推理。之前曾在谷歌大脑和Meta实习,斯坦福大学本科毕业

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

通讯作者为谷歌大神Quoc V. Le,吴恩达的学生,Google Brain的创立者之一,也是谷歌AutoML项目的幕后英雄之一。

谷歌大神QuocLe团队新作:用简单合成数据微调即可解决

代码已开源:https://github.com/google/sycophancy-intervention论文地址:https://arxiv.org/abs/2308.03958

(0)
小多多的头像小多多创始人

相关推荐

  • 美ONE底价协议曝光,「二选一」重现江湖?

    今年的双11大促刚刚揭开帷幕,李佳琦就摊上了事。10月24日晚,话题#京东采销喊话李佳琦#冲上了微博热搜榜。图源:微博事件起因是10月24日上午,京东采销人员在朋友圈公开喊话李佳琦“二选一”,该采销人员表示,京东收到了品牌商海氏的律师函,被品牌投诉由于某款海氏烤箱的京东价格低于李佳琦直播售价,违反了

    2023年10月26日 创投
  • 新中产开始疯买奇趣蛋

    你的童年记忆里,有没有那种逛超市时,眼巴巴地看着一个十几块钱的小零食、小玩具好久,但最后哭着闹着家长也不给买的扫兴瞬间?说起来不是什么大事,但无数个被打击的小心愿堆积在一起,就构成了一个窘迫的童年。于是,被“求而不得”的遗憾伴随长大的成年人,在社交平台上发起“宴请小时候的自己”的话题,用自己赚的钱慷

    2023年11月14日 创投
  • 735亿!中国汽车用了125年

    125年后,中国汽车在欧洲市场逆袭,狂揽735亿。1897年,德国柏林举办了*届德国国际车展(IAA),当时仅有8辆展车参展。而彼时的清政府刚刚签订了《马关条约》,距离光绪帝发动戊戌变法还有一年时间。此后百年,IAA逐渐发展成欧洲*的国际性车展,见证了全球汽车行业的发展。但直到108年后,中国车企才

    2023年9月22日 创投
  • 瓶装即饮咖啡火爆,Ta们在入场

    瓶装即饮咖啡火爆,Ta们在入场,随着咖啡类饮品的渗透率逐渐增加,且咖啡本身具有一定的成瘾性,用户往往会有较强的复购意愿,因此即饮咖啡市场的格局尚不能说完全固化,后来者还有空间。

    2023年6月26日
  • 俞敏洪道歉,东方甄选离不开董宇辉?

    粉丝还在掉。5天时间,东方甄选直播间已掉粉32万(12月9日粉丝3116万,截至发稿为3080万)。3个工作日,东方甄选的市值一度蒸发65亿港元。“小作文”事件还在持续发酵,东方甄选头牌主播董宇辉本人不仅缺席了既定好的12月10日的直播,且目前其IP地址显示在陕西。东方甄选最新对外回应称,董宇辉本人

    2023年12月15日
  • 现在农村有什么商机 时下极为热门的话题

    现在很多的农村朋友们都想知道在农村有什么商机,接下里的文章里就简单跟大家聊聊这个话题介绍一些行业和项目! 首先最推荐的一个项目是再生资源利用行业,如今国家对秸秆和块根等农作废弃物,…

    创投 2022年1月25日
  • 这个618,两个女人的战争

    这个618,两个女人的战争,从现阶段来看,淘宝和京东的用户重合度已经越来越高,重合用户规模已经超过1亿人(2022年10月数据)。因此,今年618属于许冉和戴珊这两位女性CEO的战争才刚刚开始,存量市场竞争之下,两人的博弈将会逐渐常为常态。

    创投 2023年5月26日
  • 花加资金断裂停业整顿,创始人独家回应:竭尽全力改变现状

    昔日鲜花电商独角兽Flowerplus花加(以下简称“花加”),陷入了前所未有的危机。9月25日,花加的一纸停业整顿内部邮件,将其推向了风口浪尖。该信件显示,2022年以来,花加正遭遇“前所未有的压力”,并且“创始人和高管团队把自己的所有积蓄都拿出来投入公司,创始人本人也负债严重”。与此同时,“9月

    创投 2023年9月27日
  • 618最大悖论:中小商家站上C位

    618最大悖论:中小商家站上C位,在各平台“谁能做到低价就给谁流量”的声音中,中小商家们却承受着难以言说的压力。当这些压力传导到供应链端,各家只能想尽办法一再压缩成本或者更换一些原材料。

    2023年6月29日
  • ​一年卖出370亿,河南大佬要IPO了

    弃A转港,“雪王”再战IPO。1月2日,继2022年A股上市未果后,蜜雪冰城向港交所递交招股书,坐实了去年10月赴港上市的传闻。无独有偶的是,与蜜雪冰城同样将主战场设于下沉市场、主打加盟的古茗也于同日交表,外加去年8月率先递表的茶百道,让港交所一时好不热闹。根据弗若斯特沙利文报告显示,按2022年零

    2024年1月5日
  • 跨境电商内卷中求增长,从消灭中间商开始

    跨境电商内卷中求增长,从消灭中间商开始,在行业高速发展时,整个产业链都会收益,但行业一旦遇到瓶颈,中间商将成为最先消失的对象。

    2023年6月29日
  • 女大学生在宿舍带娃,这事有多离谱

    女大学生在宿舍带娃,这事有多离谱,多年来,家庭托育园便是处在这样一种“灰色地带”。但需求明明一直都在。2023年3月15日,国家卫健委一则《家庭托育点管理办法(试行)(征求意见稿)》引起了很多家庭托育园从业者的讨论。

    2023年5月25日
  • 新能源购置税减免,谁受益?

    新能源购置税减免,谁受益?,从燃油车到新能源汽车换道过程中,包括新能源汽车购置税减免在内的一系列政策,对于行业的支持效果明显。

    2023年6月22日
  • 小菜园冲刺IPO,餐饮迎来「平价时代」

    1月16日,小菜园国际控股有限公司向港交所提交上市申请书,拟主板挂牌上市,华泰国际和瑞银集团担任联席保荐人。在休闲中式餐饮版图中,小菜园的知名度远不如市占率与之匹敌的绿茶、西贝莜面村和太二酸菜鱼;在安徽本地餐饮中,小菜园的名气也不如巴比馒头、老乡鸡。但不显山不露水也正是小菜园的底色,没有营销、不打广

    2024年1月23日 创投
  • 高端门窗轩尼斯深受佛山国际商会认可!又有新荣誉…_行业动态

    前段时间,佛山国际商会第四次会员代表大会与“商通世界 贸促未来”年度峰会隆重召开,高端门窗轩尼斯凭借*的品质、良好的口碑和硬核的综合实力,成功当选佛山国际商会第四届理事会常务副会长单位,这份荣誉是社会各界对轩尼斯门窗在行业内的影响力和贡献的高度认可。佛山国际商会是当地*影响力的商业组织之一,致力于

    创投 2024年1月18日