半年多过去了,ChatGPT的排名快「垫底」了

今天,笔者无意中刷到一张图片。据该图片显示,OpenAI的GPT-4在11个大模型中(*名序号为0),已经排到了最后。还有网友配上了“GPT4:我的冤屈怎么诉?”的字样。这不禁让人好奇,今年年初,ChatGPT爆火以后,其他公司才开始提大模型的概念。这才半年多,GPT就已经“垫底”了?于是,笔者想看

今天,笔者无意中刷到一张图片。

据该图片显示,OpenAI的GPT-4在11个大模型中(*名序号为0),已经排到了最后。还有网友配上了“GPT4:我的冤屈怎么诉?”的字样。

这不禁让人好奇,今年年初,ChatGPT爆火以后,其他公司才开始提大模型的概念。

这才半年多,GPT就已经“垫底”了?

于是,笔者想看看GPT排名到底咋样了。

01 测试时间不同,测试团队不同,GPT-4排第十一

从前文中图片上显示的信息来看,这个排名是出自C-Eval榜单。

C-Eval榜单,全称C-Eval全球大模型综合性考试测试榜,是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。

据悉,该套件覆盖人文、社科、理工、其他专业四个大方向,包括52个学科,涵盖微积分、线性代数等多个知识领域。共有13948道中文知识和推理型题目,难度分为中学、本科、研究生、职业等四个考试级别。

于是笔者查看了最新的C-Eval榜单。

C-Eval榜单的最新排名与前文中图片所显示的排名相符,排名前十一的大模型中,GPT-4排最后。

半年多过去了,ChatGPT的排名快「垫底」了

据C-Eval榜单介绍,这些结果代表zero-shot(零样本学习)或者few-shot(少样本学习)测试,但few-shot不一定比zero-shot效果好。

C-Eval表示,在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果,排行榜中显示了总平均分更好的那个设置。

C-Eval榜单还注明了,大模型名字中带“*”的,表示该模型结果由C-Eval团队测试得到,而其他结果是通过用户提交获得。

此外,笔者还注意到,这些大模型提交测试结果的时间有很大差别。

GPT-4的测试结果提交时间是5月15日,而位居榜首的云天书,提交时间为8月31日;排第二的Galaxy提交时间为8月23日;排第三的YaYi提交时间为9月4日。

并且,排名前16的这些大模型,只有GPT-4的名字加了“*”,是由C-Eval团队测试的。

于是笔者又查看了完整的C-Eval榜单。

最新的C-Eval榜单一共收录了66个大模型的排名。

半年多过去了,ChatGPT的排名快「垫底」了

其中,名字带“*”,也就是由C-Eval团队测试的,只有11个,且提交测试的时间均为5月15日。

这些由C-Eval团队测试的大模型,OpenAI的GPT-4排第十一,ChatGPT排第三十六,而清华智谱AI的ChatGLM-6B排在第六十,复旦的MOSS排在了第六十四。

虽然这些排名可以看出国内的大模型发展势头的迅猛,但笔者认为,毕竟不是同一团队在同一时间进行的测试,不足以完全证明这些大模型谁强谁弱。

这就好比,一个班的学生,每个人的考试时间不同,答的试卷也都不一样,怎么能靠每个学生的分数比高低呢?

02 大模型开发者怎么说?多家表示在中文等能力上超过ChatGPT

最近,大模型的圈子相当热闹。

又是百度、字节等8家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。又是其他公司相继发布自家大模型产品。

那这些大模型的开发者又都是怎么介绍自家产品的呢?

7月7日,在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上,复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏表示,复旦对话式大型语言模型MOSS在今年2月发布后,还在连续不停地迭代,“最新的MOSS已经能够在中文能力上超过ChatGPT。”

7月底,网易有道上线翻译大模型,网易有道CEO周枫公开表示,在内部的测试中,在中英互译的方向上,已经超越ChatGPT的翻译能力,也超过了谷歌翻译的水准。

8月下旬,在2023年亚布力论坛夏季高峰会上,科大讯飞创始人、董事长刘庆峰发表演讲时称,“讯飞星火大模型的代码生成和补齐能力已经超过了ChatGPT,其他各项能力正在快速追赶。当前代码能力的逻辑、算法、方法体系、数据准备已就绪,所需要的就是时间和算力。”

商汤近期的新闻稿中称,今年8月,新模型internlm-123b完成训练,参数量提升至1230亿。在全球51个知名评测集共计30万道问题集合上,测试成绩整体排名全球第二,超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。

据商汤介绍,internlm-123在主要评测中,有12项成绩*。其中,在评测集综合考试中的agieval分数为57.8,超越gpt-4位列*;知识问答commonsenseqa的评测分数为88.5,*;internlm-123b在阅读理解的五项评测中成绩全部居榜首。

此外,在推理的五项评测中成绩*。

本月初,作业帮正式发布自研银河大模型。

作业帮表示,银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示,作业帮银河大模型以平均分73.7分位居C-Eval榜首;同时在CMMLU榜单Five-shot和Zero-shot测评中分别以平均分74.03分及73.85分位列*,成为*同时在上述两大权威榜单平均分*的教育大模型。

昨天,百川智能宣布正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本。

百川智能创始人、CEO王小川称,经过微调之后的Chat模型,在中文领域,在Q&A问答环境,或者摘要环境里面,评价它的实际性能已经超过ChatGPT-3.5这样的闭源模型。

今天,在2023腾讯全球数字生态大会上,腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称,腾讯混元大模型中文能力已经超过GPT-3.5。

除了这些开发者的自我介绍,也有一些媒体和团队对一种大模型进行评比。

8月上旬,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示,百度文心一言在三大维度20项指标中综合评分国内*,较优于ChatGPT,其中中文语义理解排名靠前,部分中文能力较优于GPT-4。

8月中旬,有媒体报道称,8月11日,小米大模型MiLM-6B现身C-Eval、CMMLU大模型评测榜单。截至当前,MiLM-6B在C-Eval总榜单排名第10、同参数量级排名第1,在CMMLU中文向大模型排名第1。

8月12日,天津大学发布《大模型评测报告》。报告显示,GPT-4和百度文心一言相较于其他模型综合性能显著*,两者得分相差不大,处于同一水平。文心一言已经在大部分中文任务中实现了对ChatGPT的超越,并逐步缩小与GPT-4的差距。

8月下旬,有媒体报道称,快手自研的大语言模型“快意”(KwaiYii)已开启内测。在最新的CMMLU中文向排名中,快意的13B版本KwaiYii-13B同时位列five-shot和zero-shot下的*名,在人文学科、中国特定主题等方面较强,平均分超61分。

通过上述内容可以看出,这些大模型虽然纷纷号称自己在某排名中居首,或者是在某某方面超越ChatGPT,但大多是在一些具体的领域表现优异。

另外,有一些综合评分超过了GPT-3.5或GPT-4,但GPT的测试是停留在5月的,谁能保证这近3个月的时间里,GPT没有进步呢?

03 OpenAI的处境

根据瑞银集团2月的一份报告显示,在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。

但ChatGPT的发展也不是那么顺利。

今年7月,有不少GPT-4用户吐槽,与之前的推理能力相比,GPT-4的性能有所下降。

有些用户在推特以及OpenAI在线开发者论坛上指出了问题,集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号,只能记得最近的提示等等。

8月,又有一份报告称,OpenAi可能处于潜在的财务危机中,可能于2024年底破产。

报告中表示,OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。目前,该公司正试图通过GPT-3.5和GPT-4实现盈利,但是还尚未产生足够的收入实现收支平衡。

不过,OpenAI或许也有新的转机。

日前,OpenAI宣布,将于11月举办首届开发者大会。

虽然OpenAI表示不会发布GPT-5,但OpenAI称将有来自世界各地的数百名开发人员与OpenAI团队一起,提前一览“新的工具”,并且交流想法。

这可能意味着,ChatGPT已经取得了新的进步。

另据澎湃新闻报道,8月30日,一位知情人士透露,通过销售AI软件和驱动其运行的计算能力,OpenAI预计将在未来12个月内实现超过10亿美元的收入。

今天,又有媒体报道称,本月晚些时候摩根士丹利将推出一款和OpenAI共同研发的生成式人工智能聊天机器人。

和摩根士丹利的银行家打交道的人,非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验,对OpenAI来说,也许会是一个巨大的收获。

人工智能时代的到来,已经势不可挡。至于到底谁更胜一筹,不能光靠自己说,还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超ChatGPT。

(0)
小多多的头像小多多创始人

相关推荐

  • 投资人刹车,「新中式」追尾

    “新中式”风暴正在席卷餐饮圈。从长沙顶流茶颜悦色、云南之光霸王茶姬等国风奶茶,到让投资人抢破头的墨茉点心局、虎头局、泸溪河等国潮点心,再到今年开遍大街小巷的塔斯汀、贾国龙中国堡、林堡堡等中式汉堡,以及最近火爆网络的中式馒头、中式炸鸡……打着“中式”旗号的门店,一时间开遍大街小巷。“中式某某”蔚然成风

    2023年10月18日 创投
  • 中国芯片自给率锁定新目标

    经过了2023年的低迷,全球半导体业将希望寄托在2024年。从2023年第四季度开始,无论是智能手机,还是PC市场,都出现了回暖信号,供应链上相关厂商的订单开始多起来,而且,各大市场调研机构也都预测2024年将是新一个半导体周期的开始,整个电子半导体产业将进入上行周期。对于正处在各种挑战与困难之中的

    2024年1月22日
  • ZDNS完成亿元C轮融资,中科院资本、新鼎资本领投

    ZDNS完成亿元C轮融资,中科院资本、新鼎资本领投,本轮资金将主要用于推动下一代DNS(域名系统)技术研发和行业应用,充分发挥下一代DNS在互联网基础设施中的关键作用,为数字经济发展筑牢重要网络根基。

    创投 2023年3月29日
  • 困于电视广告的人们,难寻「退出」键

    按下电视的开机键,首先出现的画面是开机广告,再随便点开一个影片,视频播放前又会出现广告,好不容易开始播放影片,时不时还会跳出各种广告且不可关闭,提示开通会员后方可跳过广告,但办理会员后仍要手动跳广告……这样一幕,对于大部分人而言应该都不陌生。此前,在微博上,#智能电视使用套路#的话题热度高达近两千万

    创投 2023年10月10日
  • 24座万亿GDP城市,哪里赚钱最耐花?

    24座万亿GDP城市,哪里赚钱最耐花?,值得注意的是,收入越高并不代表钱就更“耐花”。因为高收入同时也伴随高消费,越会挣钱的城市居民,往往在花钱这件事上也不含糊。

    2023年4月15日 创投
  • 全球首例,南开大学完成介入式脑机接口非人灵长类动物试验

    全球首例,南开大学完成介入式脑机接口非人灵长类动物试验,比马斯克的技术更稳定?脑机接口技术是目前神经工程领域中最活跃的研究方向之一,是一种在脑与外部设备之间建立直接的通信渠道的技术,在生物医学、神经康复和智能机器人等领域有着重要应用。

    创投 2023年5月6日
  • 年底离职划算吗 重要的其实是下一家怎么样

    作为一个成年人在做一件事情之前一定都是要衡量利弊的,那么想要再年底的时间点离职的话到底划不划算呢?今天就和大家聊聊这个每到年底都会热门的话题! 首先大家要知道年底入职的新员工,相对…

    创投 2022年1月25日
  • 爆红之后不宰客,淄博又火了

    爆红之后不宰客,淄博又火了,当美食、网红的热潮退去后,如何将转瞬即逝的“流量”变成长久可持续的“留量”,吸引更多回头客,“淄博们”要做的“功课”还有很多。

    2023年4月13日 创投
  • 字节弃子,又多了一个

    “上周还在上紧发条抢会议室,今天去确认 last day,很字节范儿。”一位朝夕光年员工收到通知后如是向虎嗅感慨。昨天(11 月 27 日),字节亲手给曾经寄予厚望的游戏业务踩下“急刹车”——虎嗅获悉,字节跳动旗下游戏业务朝夕光年宣布进行大规模业务收缩:部分在研 UGC 及 AIGC 项目得以保留,

    创投 2023年11月28日
  • 「黑电不是好生意」的印象,应该改一改了

    过去很多年来,黑电一直都被认为不是一门好生意。相比白马股辈出的白电,可谓相形见绌。如今,格力电器的市值在1800亿左右,而黑电龙头海信视像的市值只有不到300亿。黑电不受投资人待见也是有原因的。一方面,电视品牌在产业链中往往受上下游挤压;另一方面,互联网电视的崛起,又让市场格局显得过于拥挤。但如今,

    2023年10月25日
  • 这个由红杉中国捐赠的大奖,新迎来5位世界级科学家

    专属于科学家的“奥林匹克”迎来颁奖季。今天上午(11月7日),2023年世界顶尖科学家协会奖(简称“顶科协奖”)颁奖典礼在第六届世界顶尖科学家论坛开幕式上隆重举行。因“对凸优化理论的开创性贡献”的佐治亚理工学院工业与系统工程学院讲席教授阿尔卡迪·涅米罗夫斯基(Arkadi Nemirovski)与法

    2023年11月7日
  • 姚振华,失意富豪的无力反击

    姚振华,失意富豪的无力反击,宝能系入主中炬高新后,与二股东火炬集团摩擦不断,涉及剥离房地产业务、回购计划等。

    创投 2023年7月27日
  • 曾经的SLG霸主在憋什么大招

    前段时间,一则招聘信息引起了游戏新知的注意。一家北京厂商放出了SLG资深战斗策划的招聘岗位,在JD中提及要深度体验《万国觉醒》《万龙觉醒》以及《潜水员戴夫》,还要求体验过各种吸血鬼幸存者like游戏。令人意外的是,放出岗位的这家公司是智明星通。智明星通早年凭借着《列王的纷争(COK)》引领了SLG品

    2023年11月8日 创投
  • 蜜雪冰城旁边,开店者的深渊?

    这是事实。据媒体报道,2020年年中,正新鸡排全国门店数一度多达2.2万家,是肯德基中国的3倍,麦当劳中国的7倍,可谓名副其实的“街霸”,但如今,正新鸡排门店数跌落至1.1万家,有如腰斩,猛然回到大约6年前的水平。正新鸡排由此引发的热议,也“波及”到蜜雪冰城,有网友调侃,1万家正新鸡排倒下,可能是离

    创投 2023年12月28日
  • 钠离子电池,正式「上车」

    钠离子电池产业化曙光来临,却遇上锂价大幅缩水,钠电何以分庭抗“锂”?钠离子电池产业化再次迈出关键一步。2023年尾,钠离子电池领域接连两日传来“上车”消息:2023年12月27日,中科海钠宣布,公司与江淮钇为联合推出的钠电版花仙子电动车已于当日下线,预计2024年1月开始批量交付,这也是全球*钠离子

    创投 2024年1月15日