谷歌大模型Gemini能否打败GPT4?

‍”沉寂”已久的谷歌终于放大招了。美国当地时间12月6日,谷歌发布多模态大模型Gemini。谷歌DeepMind直接宣布,Gemini是“谷歌*、最强的人工智能模型”。Google Deepmind 的官方账号截图,来源:谷歌DeepMindGemini谷歌是从头开始构建的多模态模型,这也是更接近人

“沉寂”已久的谷歌终于放大招了。

美国当地时间12月6日,谷歌发布多模态大模型Gemini。谷歌DeepMind直接宣布,Gemini是“谷歌*、最强的人工智能模型”。

谷歌大模型Gemini能否打败GPT4?

Google Deepmind 的官方账号截图,来源:谷歌DeepMind

Gemini谷歌是从头开始构建的多模态模型,这也是更接近人类认识世界的方式。

作为谷歌用来应对GPT-4的“杀手锏”。Gemini在32个多模态基准测试中取得了30个SOTA(State Of The Art,即当前*效果)的记录,是*个在MMLU(大规模多任务语言理解)测评上超过人类专家的模型。Gemini在此项取得的成绩是90.0%,作为对比,人类专家的成绩为89.8%,GPT-4为86.4%。

Gemini共有三个版本:

Gemini Ultra:适用于高度复杂的任务;

Gemini Pro:适用于扩展至各种任务的Gemini模型;

Gemini Nano:体量较小,适用于特定任务和移动设备。

“Gemini的多样性让它能够在从移动设备到大型数据中心的所有设备上运行。”谷歌DeepMind产品副总裁Eli Collins说,“我们离新一代人工智能模型的愿景越来越近了。”

“有了人工智能,我们将有机会以更大规模做一些重要的事情。”谷歌CEO Sundar Pichai在谷歌成立25周年公开信中就特意提到了人工智能。面对强势的OpenAI,优等生谷歌需要一款现象级产品,证明自己在人工智能领域的实力。

Gemini就是谷歌交出的答卷。

1、“打的就是精锐”

谷歌的Gemini模型的核心优势在于其原生多模态(natively multimodal)的特性。

以往的多模态大模型往往是通过分别针对不同模态训练单独的组件,再将这些组件组合起来以模拟多模态功能的方法构建的。虽然在某些任务(比如图像描述)上表现良好,但在处理需要更深层次概念理解和复杂推理的任务时,它们的表现往往不尽人意。

而谷歌的Gemini模型从一开始就在不同模态上进行预训练,再通过使用额外的多模态数据进行微调,进一步提升了模型的有效性。这种原生的多模态训练方法使得Gemini在处理多种类型的数据和复杂任务时更为高效和精准,从而在多模态人工智能领域树立了新的标准。

并且,Gemini的推出主要是”瞄准OpenAI的GPT-4″而来。用《亮剑》里李云龙的话来说就是——“打的就是精锐”。

在运算效能方面,Gemini几乎“全面吊打”GPT-4。Gemini Ultra在大模型研发被广泛使用的32个学术基准测试集中,在其中30个测试集的性能超过此前SOTA结果。其中,在多选问题、数学问题、Python代码任务、阅读等方面,Gemini的性能都超过了此前*进的水平。

谷歌称,他们对MMLU采用了新的基准方法,使Gemini能够利用推理能力在回答难题之前进行更仔细的思考,相比仅仅根据问题的*印象作答,Gemini的表现有显著改进。 

Gemini Ultra在多个编码基准测试中表现出色,包括HumanEval和Natural2Code。其中仅Gemini仅在HellaSWAG数据集上的测试逊色于GPT-4。

HellaSWAG数据集主要用于研究扎根的常识推理能力,但是一位NLP领域的研究专家向「甲子光年」表示:”这并不能说明GPT4的常识推理性能更好,因为不能排除ChatGPT的模型在HellaSWAG数据集上训练过。”

谷歌大模型Gemini能否打败GPT4?

Gemini模型与GPT-4部分测试评分对比,图片来源:谷歌

此外,在多模态方面,Gemini Ultra在新的MMMU基准测试中取得了59.4%的*进得分,突显了其多模态性和复杂推理能力。

在图像基准方面的测试中,Gemini Ultra不需要从图像中提取文本就能进行OCR处理,表现优于之前*进的模型。

谷歌大模型Gemini能否打败GPT4?

Gemini模型在多模态方面的与GPT-4V的测试对比,图片来源:谷歌

Gemini 1.0被训练用于同时识别和理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题,尤其擅长解释数学和物理等复杂科目中的推理。

“推理缺陷”也是GPT系列存在的问题。著名语言模型批评者Gary Marcus博士曾锐评道:“大语言模型没法做一些有严格定义的工作:遵守国际象棋规则、五位数字相乘、在家谱中进行可靠的推理、比较不同物体的重量等等。”

尽管技术进步显著,但AI生成的虚假或捏造信息的问题依然存在。Eli Collins指出,这仍是一个未被完全解决的研究难题。

但他同时也强调,Gemini接受了谷歌迄今最为全面的安全评估,以确保其可靠性和安全性。谷歌对Gemini进行了一系列对抗性测试,模拟恶意用户使用模型,并输入各种提示词,以检测模型是否会产生仇恨言论或表现出政治偏见。这些测试包括了“真实毒性提示词”,由网络收集的超过10万个提示词组成,用以全面检验模型的反应。

值得注意的是,Gemini是在谷歌自研的云芯片Tensor Processing Units(TPU)上完成训练的。特别是TPU v5p版本,在性能上有了显著提升,使得模型训练速度相比前一代提高了2.8倍。据悉,TPU v5p芯片是专为数据中心训练及大型模型运行而设计。

从12月13日起,开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI来访问Gemini Pro模型。Google AI Studio是一个基于网络的免费开发工具,为开发人员提供API密钥,从而快速创建原型并启动应用程序。Vertex AI提供了定制化的Gemini以提供更为全面和管理的人工智能平台,并具有完整的数据控制功能,能利用谷歌云的额外功能,包括企业级的安全性、隐私保护以及数据治理和合规性。

此外,从Pixel 8 Pro设备开始,Android开发人员还可以通过Android 14中的新系统功能AICore来使用Gemini Nano。Gemini Nano是专为设备端任务设计的高效模型,通过注册AICore的早期预览版,开发人员可以深入探索其潜力,更便捷地利用Gemini的先进技术,并在Android生态系统的应用开发中迸发更多可能性。

到2024年,谷歌计划推出Bard Advanced,它与AI agent的初级形态十分相似。Bard Advanced将借助Gemini Ultra提供支持,可以迅速理解多模态输入,包括文本、图像、音频和视频,并作出相应的响应。

2、谷歌 VS OpenAI

在OpenAI的GPTs大放异彩时,谷歌似乎过于沉寂了。

今年2月,谷歌在巴黎举行活动时,因其聊天机器人Bard的一处失误,市值蒸发了1000亿美元,也引发了外界对于Bard准确性的担忧。

随着OpenAI推出了ChatGPT,尤其是在必应搜索中整合了GPT技术,并首次在应用程序下载量上超越了谷歌后,人们开始思考谷歌是否在已人工智能领域落后于竞争对手。

事实上,谷歌才是在2017年提出的Transformer模型、为今天这场游戏制定规则的先行者。

谷歌对大模型”高地”的竞争意识并不比OpenAI晚。2021年,谷歌便推出了1.6万亿参数的Switch Transformer,强调稀疏多模态结构的潜力。同时,谷歌还提出了Flan-T5模型,通过更多监督数据降低了模型规模,比GPT-3模型参数更少但性能更佳。

对于技术上的评估,《经济学人》在今年1月曾进行了一项比较测试,向ChatGPT和谷歌基于Lamda的机器人Bard提出了数学、阅读和约会建议等问题。

测试结果显示,谷歌AI在数学问题上表现更佳,但ChatGPT在常识问题上更准确。几天后OpenAI升级了ChatGPT,再次测试中在数学问题上与谷歌AI持平。尽管ChatGPT作为一个大型语言模型训练成本高、迭代难,但也显示了它持续进化的巨大潜力。值得注意的是,谷歌的语言模型与ChatGPT在性能上是旗鼓相当的。

在这场对决中,谷歌和微软都需要成本效益更高的解决方案。谷歌在AI领域取得了不少研究进展,但尚未将这些成果部署和变现,类似于微软在过去的某些时期。这可能是因为谷歌低估了微软和OpenAI的竞争实力,或者过于自信于自己在搜索引擎领域的主导地位。

甲子光年」综合多方观点分析得出,谷歌在技术前瞻性上*,OpenAI更专注于产品的打磨。

在Sam Altman领导下的OpenAI专注于产品为导向的工作,致力于扩展和优化模型,主要关注细节精调方法。

谷歌则在技术发展的方向上始终保持着积极和前瞻的态度,不过在整体战略规划上却屡次调整。

谷歌在稀疏模型架构上进行了深入探索。只是两年后的,万亿级别的Switch Transformer几乎没产生任何水花,而千亿参数级别的GPTs系列却风生水起。同样,被反复改进的Flan-T5模型虽然在性能上超越了GPT-3,但其优化进展相对缓慢。

在谷歌”选择困难症”期间,OpenAI已经完成了对ChatGPT的训练。

在2022年9月,谷歌旗下的DeepMind推出了麻雀(Sparrow)模型,和ChatGPT一样,采取了基于人类反馈的强化学习(RL)框架。该模型采用了小型参数设置,与谷歌看重的LaMDA和PaLM模型的思路有明显不同。只是谷歌并未能迅速确定麻雀模型是否是*选择,这也导致了麻雀模型的产品化滞缓,最终未能”飞上枝头变凤凰”。

“犹豫不决”似乎一直是谷歌的宿疾。“但迟到总比不做好!终于有了OpenAI王座的有力竞争者。”在Google公布消息后,英伟达AI科学家Jim Fan评论道。

今年4月,谷歌将Google Brain和DeepMind团队合并,成立 Google DeepMind。有人将这一团队戏称为“AI复仇者联盟”。原Google AI产品负责人Eli Collins被委以重任,担任新团队的产品副总裁。

目前,Gemini Pro和Gemini Nano已在聊天机器人Bard和智能手机Pixel 8 Pro上集成,实现了更为高级的推理、规划、理解等能力。而更为强大的Gemini Ultra将在明年发布。

不知OpenAI会如何”应战”呢?或许我们很快便可以等到GPT-5的发布了。

不过,优等生谷歌并不完全在意这一时之战,而是在着眼未来。

“我们对答案的探索将在未来25年推动非凡的技术进步。到2048年时,如果有一位青少年在世界上的某个地方,看着我们用人工智能建造的一切耸耸肩,我们就知道我们成功了。然后,我们就回去工作。”谷歌CEO Sundar Pichai在谷歌成立25周年公开信中如是说。

(0)
小多多的头像小多多创始人

相关推荐

  • Unity收费冲击波:中国游戏厂商坐不住了

    在受到众多游戏开发者猛烈抨击后,知名游戏引擎开发商Unity在9月末发表社区公开信,为新收费政策致歉,并公布经修改后条款。此前,Unity宣布涨价政策,从2024年起,将对过去一年内超过收入及安装次数门槛的游戏,收取一定安装费用。东方财富证券报告指出,在画面渲染能力及内容上,Unity因高兼容性和易

    2023年10月5日
  • 阅文还是番茄?谁能让失业青年逆天改命

    失业青年逐梦网文圈31岁的章明没想到,当千军万马涌入考公战场,寻个铁饭碗时,自己所在的公考培训机构会突然暴雷,资金链断裂,连工资也发不出。没了收入,他的生活一下子举步维艰。疫情期间,章明因投资亏损负债十万,此外,每月还有四千五的房贷要还,每天睁开眼,不同网贷平台的催债电话就在不停地响。横在他眼前的只

    2023年9月19日 创投
  • 刚买的保险能贷款吗 投保两年以上才可以

    刚买的保险能贷款吗?据悉刚买的保险不能贷款。保单贷款的前提是:投保两年以上并且其保险账户存在现金价值,通常保险公司所提供的最大贷款金额为客户保单现金价值的70%-80%。 保单贷款…

    2022年1月25日
  • 施华洛世奇2000元的假宝石手链火了?

    施华洛世奇2000元的假宝石手链火了?,什么情况,这酷似小学门口卖得塑料水晶手链,怎么能卖到快2000块?

    2023年6月25日 创投
  • 买房最高补贴1000万,东莞向全球“抢人才”

    东莞发布的一则人才购房补贴,引起大量关注。公开内容显示,东莞将特级人才的购房补贴,最高提高到了1000万元。符合特级人才标准的杰出人才,包括诺贝尔奖获得者、中国国家最高科学技术进步奖获奖者、中国、美国等国的两院院士等。事实上,不仅是东莞这一座城市对优秀人才开出了“高价”,国内诸如南京、苏州、成都、杭

    创投 2023年9月24日
  • 关注AIGC还不够,你还需要AIPC

    ChatGPT全球爆火之后,5月,英伟达(Nvidia)创始人黄仁勋一头白发,披着黑色毕业长袍,瞬间点燃了全世界对AI的热情。黄仁勋打开了AI的大门,让世界看到更惊艳的图景。在其众多预言中,有一个并未引起关注。黄教主说,“电脑产业正在迎来再生契机。在下个十年,新型AI电脑取代价值上兆美元的传统电脑。

    2023年8月23日
  • 西湖维泰完成数千万元Pre-A+轮融资,美鸿投资领投

    投资界(ID:pedaily2012)10月17日消息,西湖维泰宣布完成数千万元Pre-A+轮融资增资。本轮融资由美鸿投资领投,滕华资管、西湖科创投等多家投资机构参与跟投。本轮融资资金将助力西湖维泰在新产品研发、业务拓展、渠道推广等各方面高速发展。西湖维泰(杭州)诊断技术有限公司是一家基于创新血清学

    2023年10月17日
  • 防晒品牌,今年推崇「蒙面式」防晒?

    防晒品牌,今年推崇「蒙面式」防晒?,曾经的防晒衣只是一件平平无奇的外套,现在品牌研发出显瘦、显腿长等款式,强调防晒衣的版型。

    2023年7月11日 创投
  • 14天,180万香港人来深圳:省钱是最 大的吸引力

    14天,180万香港人来深圳:省钱是最大的吸引力,三十年河东,三十年河西,如今香港人来深消费,主打的也是一个“平靓正”。

    创投 2023年4月7日
  • 年轻人没有抛弃泡泡玛特

    在脱口秀大会第四季上,选手庞博直言不理解为什么有人喜欢开盲盒,并犀利吐槽盲盒里卖的一定是没有用的东西,生活必需品不会以盲盒的形式销售,并举例菜市场是不会卖盲盒的。在脱5上,他又call back了一下:自己遭“报应”了,蔬菜盲盒真的出现了。其实不仅是蔬菜,还有机票、书、饮料、衣服盲盒等等,简而言之,

    创投 2023年9月10日
  • 360借条有额度借不出来怎么办 可以尝试以下方法

    360借条是可以循环借款的贷款产品,进来有不少用户表示360借条显示有额度,但是借不出来。面对这种情况,要如何向360借条成功申请借款呢?一起来了解一下。   360借条有额度借不…

    创投 2022年3月31日
  • 两家巨头同时困境:亏损破200亿

    两家巨头同时困境:亏损破200亿,那么问题来了,一个认知更高的群体为何走向商业败局,另一个认知更低的群体反而蒸蒸日上——这又是为何?

    2023年7月17日
  • 2020年猪肉价格下降了吗 猪肉降价的原因有哪些

    近几年猪肉价格的疯狂上涨可以说是大众关注与吐槽的焦点,猪肉价格每天都在变化,而大家最关心的莫过于猪肉降价的最新消息,毕竟猪肉价格再这样持续高位会直接影响居民的生活水平,影响社会的安…

    创投 2022年3月31日
  • 黑石宣布完成史上最大房地产基金募资,304 亿美元

    黑石宣布完成史上最大房地产基金募资,304亿美元,BREPX共获得304亿美元的总资本承诺,是有史以来最大的房地产或私募股权基金。

    2023年4月13日
  • 大学生就业难,难在何处?

    大学生就业难,难在何处?,18.9%的学生是打算慢就业的,慢就业就是他暂时不找工作,或者不找一个签合同的工作,去做一些零工

    2023年6月20日 创投