搞AI的是真没钱了

4月5日上午,一个来自MIT、普林斯顿等研究机构的华人团队发布了自己的大模型 JetMoE ,宣布用 10 万美元的训练成本,就可以训练出媲美 LLaMA2 级别的大模型——后者成本高达数十亿美元。贾扬清*时间进行了转评赞,直指其核心在于 MoE 架构。此前,MoE 架构始终是一个位于舆论水面下的大

4月5日上午,一个来自MIT、普林斯顿等研究机构的华人团队发布了自己的大模型 JetMoE ,宣布用 10 万美元的训练成本,就可以训练出媲美 LLaMA2 级别的大模型——后者成本高达数十亿美元。贾扬清*时间进行了转评赞,直指其核心在于 MoE 架构。

此前,MoE 架构始终是一个位于舆论水面下的大模型技术,人们醉心于大模型的技术突破,而以吃瓜的心态看待其背后的成本问题。但当 Stability AI CEO 及核心团队相继离职,公司被曝每月运营成本高达800万美元以上,完全入不敷出时,大家才真正的认识到:不是中国 AI 圈穷,而是全球 AI 圈都真的没钱了——大模型就像个“碎钞机”,无论硅谷公司,还是中国公司,都难以承受。

因此,MoE 作为一种可以降低运营成本、提升训练效率的架构,骤然成为全世界大模型公司的关注重点。

去年12月,Mistral AI 发布 8x7B-MoE 模型,成为全球*开源的 MoE 大模型;今年 1 月,Minimax 宣布发布国内* MoE 大语言模型 abab6;在接下来的几个月,Google、APUS、达观、阶跃星辰等企业以及马斯克,都纷纷发布了自己的 MoE 模型。考虑到研发周期的问题,至少在 GPT-4 刚发布的时间(2023年3月),有远见的公司就已经确定了 MoE 的架构方向。

即便是 OpenAI ,当下对其 GPT-4 技术猜测的主流观点也认为,他们一定采用了 MoE 架构。

MoE 不太省心,但确实可以降本

MoE 架构的中文名称是混合专家架构,是神经网络的一种架构模式。它将神经网络拆分成多个专家子网络,面对一次输入,既可以指定某一位“专家”来回答,也可以要求多位“专家”回答,甚至全部参与回答,最终依据权重综合给出结果。

这使得 MoE 架构的可扩展性优秀,开发者可以在一个巨型模型上,继续增加参数量,进行横向扩展。同时因为 MoE 可以选择只启用部分专家子模型,也在保持性能的同时,降低了推理成本。另外 MoE 架构允许数据在多个专家模型之间进行分配和并行处理,因此可以提高模型的训练和推理速度。

听起来全是优点,但是 MoE 架构的训练难度很大。

一个最主要的问题是,MoE 架构很难保证每个“专家”都能得到充分训练。决定了哪些“专家”,以多大权重参与回答的核心部件是门控网络(Gate Network)。如果门控网络倾向于选择某些特定的“专家”,可能会导致其他“专家”得不到充分的训练,从而造成训练不稳定。而且在MoE架构中,不同的“专家”可能会被分配到不同数量的输入样本。如果某些“专家”被分配的样本过多或过少,可能会导致负载不平衡,影响模型的训练效率和最终性能。

但对于全球 AI 企业,尤其是中国企业而言,这已经是两年来的*局面了——至少我们可以用软件技术解决问题,而不是看着芯片和账户干着急。

从实际情况来看,国内 MoE 架构的产品进展也较为乐观。

MiniMax 作为最早发力 MoE 架构的主儿,一直在干闷声发大财的事儿,投资人看重的有场景、有客户等几个要点,MiniMax 都具备。根据其官方为数不多的、对外透露的信息显示,金山办公、小红书、腾讯、小米、阅文集团都是其客户。尽管这类大客户很可能同时采购了多个基础模型服务,但依然显示出 MiniMax 进展好像不错。今年3月,阿里被曝参与 MiniMax 下一轮融资,领投6亿,据称红杉也承诺将参与本轮融资。某种程度上,这也代表着头部资本对 MoE 这一技术路线的认可。

而就在 4 月 1 日,APUS(麒麟合盛) 放出的信息更加露骨地说明了这一问题——其联合新旦智能训练的大模型APUS-xDAN 大模型4.0(MoE)将于近日宣布开源。

在早期放出的信息中,APUS 重点提到了两点:

● 参数规模为1360亿,国内开源模型中参数规模*;

● 是国内*支持在4090低端算力上训练的千亿参数开源大模型;

说白了,便于横向扩展,是事实,但可能不是主要因素,物美价廉,才是核心。

不玩 MoE,就搞小模型

这种降本的决心贯彻的有多彻底,再看看不搞 MoE 架构的厂商就知道了。

面壁智能2月份发布了自己的端侧模型 Minicam,官方称该模型以 2B 的尺寸可以超越Mistral-7B,媲美Llama2-13B。虎嗅 3 月邀请了面壁智能曾国洋参与 AI 内参会聊到该模型,曾国洋表示,现在业内普遍没有将小尺寸模型的潜力挖掘干净,面壁追求的是如何实现更合理的训练,而不是单纯的堆模型参数量。

从产品定位上来讲,当然可以说这是做端侧模型的应有之义。但从成本价角度而言,这也是除开 MoE 架构外的又一次降本尝试。CEO 李大海在面壁的发布会上重点聊过这个问题:成本是大模型的隐形竞争力。面壁 MiniCPM 在端侧的部署中,可以支持 CPU 推理,同时发布的量化版本,可以做到压缩 75%,性能基本无损。如果使用骁龙 855 芯片,成本约 600 元人民币,按照运行 5 年计算,每秒 7.5 tokens,那么 170 万 tokens 的推理成本需人民币 1 元。成本为 Mistral-Medium 的百分之一。

小模型这套路能走多远,是否因为短期的苟且,导致在 AGI 层面的发展继续落后?如果之前还存在这个疑惑,那么 AI PC、AI 手机热潮的兴起,多少给大家增加了些信心。

尽管现在 AI PC、AI 手机是噱头成分居多,真正在 C 端有决定意义的价值点较少。但这趟列车已经绑定了太多的人:高通、英特尔、三星、联想……以及一系列基础模型厂商、模型中间件厂商。某种意义上,这是“元宇宙 Plus”版的概念列车,必须找到终点,也必须驶到终点。与当年元宇宙的情况不同的是,大模型当下的技术发展曲线,仍在陡峭上升中——

至少在 GPT-5 发布前,所有的商业故事,都会如约讲下去。

(0)
小多多的头像小多多创始人

相关推荐

  • 马斯克脑机接口能否顺利实现人机共生?

    埃隆·马斯克,被《时代》著名记者和传记作家Walter Isaacson认为是当今世界最有意思的人。也有人说,最新出版的《马斯克传》整本书在试图回答这样一个问题:马斯克到底是不是“疯子”?毕竟他所有的目标都过于“宏大”,也略显“疯狂”。他缔造特斯拉来解决能源问题,引领全球进入电动汽车时代;他为实现火

    2023年9月21日 创投
  • 旅游季来了,民宿涨不动了

    刚刚过去的清明小长假,不少游客在出行时发现,“民宿怎么没涨价?”清明节前夕,有用户带一家人到京郊过周末。按照以前的价格,带院子、两室一厅的民宿周末两天一晚要3000元起,现在才999元。也有民宿主表示,民宿集中的城市,今年*季度都在“卷价格”。清明节前,或许有淡季因素的影响,而今年清明节假期前后依然

    2024年4月9日 创投
  • 尚品宅配&布蘭斯携手赋能经销商转型破卷、弯道超车!_行业动态

    随着城市化进程放缓,地产红利消退,家居行业进入存量时代,竞争进一步加剧,渠道更加碎片化。行业内卷如何破解?如何用新模式、新产品、新技术重构竞争新优势?2024有哪些流量风口?经销商如何摆脱经营困境,转型超车?3月14日,“聚变·万商风华——第 一届泛家居产业研学私董会”在佛山隆重举办。尚品宅配与布

    2024年3月19日 创投
  • 领英在中国输掉的三场战役

    领英在中国输掉的三场战役,在宣布放弃领英职场后,领英在中国市场也失去了全部C端用户。主攻B端对领英来说是否是更好的选择,尚未可知。

    创投 2023年5月18日
  • 首发|致真存储完成数千万元Pre-A轮融资

    首发|致真存储完成数千万元Pre-A轮融资,致真存储(北京)科技有限公司是一家以磁存储技术为基础的创新性科技企业,掌握芯片设计、研发及生产制造等关键核心技术。

    创投 2023年7月26日
  • 维也纳酒店投资人专访|单体向上_连锁纵深_中端酒店如何激活西北投资大生意?_行业动态

    刚刚过去的五一展现了全国范围内各地旺盛的酒旅消费热情,经文化和旅游局中心测算,全国国内旅游出游合计2.74亿人次,同比增长70.83%,实现…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    2023年5月9日 创投
  • 互联网医疗明星公司卖了,并购是否能解行业之困?

    股价暴跌、关停主营业务、出售资产……2023年至今,全球互联网医疗明星企业Babylon Health(以下简称Babylon)风波不断。8月31日,Babylon公告了风波的最新进展:在探索战略替代方案后,公司在英国业务的大部分剩余资产已被美国医疗保健服务公司eMed.com收购。而在过去的几年里

    创投 2023年9月8日
  • 安徽铜陵一支新兴产业基金招GP

    关于公开遴选铜陵悦江新兴产业发展基金管理人的公告为深化郊区国有企业高质量发展,持续做强做优做大国有企业,全力推动“双招双引”工作实现新突破,加快推进产业转型升级,构建“产业项目+产业基金+产业园区”的新发展格局。根据《铜陵悦江新兴产业发展基金设立方案》,现将公开遴选铜陵悦江新兴产业发展基金管理人相关

    2024年1月30日
  • 月均销量刚破百,蔚小理远征欧洲

    近日,比亚迪携海豹、宋PLUS EV冠军版、元PLUS(海外命名为BYD ATTO 3)、海豚、汉以及腾势D9亮相德国慕尼黑车展。同时,比亚迪宣布海豹正式在欧洲上市,并提供两个版本。就在一个月多前,比亚迪曾披露过海外新能源汽车销量。2022年11月,其海外销量突破1万辆大关,达12318辆。12月销

    创投 2023年9月11日
  • 一年建1000座换电站,新能源汽车补能大战升级

    一年建1000座换电站,新能源汽车补能大战升级,可以看出,建设更大规模的补能体系,被视为抢占市场份额的关键动作之一。

    2023年3月30日
  • 字节加入AI战场

    大模型应用爆发年,谁能率先突围?岁末年终,大模型厂商们又秀了一波“肌肉”。2月1日,此前在大模型领域一直保持“静默”状态的字节跳动终于有了新动作,其上线了“Coze扣子”AI Bot开发平台;与过往聊天机器人的形式不同,“扣子”更像是2023年11月Open AI发布的GPTs,可以让用户通过聊天、

    2024年2月5日 创投
  • 为投放开“绿灯”,擎舵助力驾校一点通开启营销加速模式_行业动态

    报考驾校的“新手小白”可能都经历过这样的困惑,科目一刷题去哪里练,与真题相似度如何?科目四的难题如何提前弄懂避免考试翻车?看直播能不能学好开车?身边很多学车的人通过百度信息流推送尝试下载了“驾校一点通”,他们的普遍反馈是“题目非常全面,基本上刷几轮下来,就可以轻松应对科一和科四了。”当营销步入以用

    创投 2023年12月27日
  • 宏图大展再启新程丨宏信建发上市庆典圆满举行_行业动态

    近日,远东宏信旗下设备综合运营服务平台宏信建发在香港联交所主板成功挂牌上市。为答谢社会各界长期以来的支持和认可,宏信建发于6月8日在香港隆重…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    创投 2023年6月16日
  • 汽车行业新时代的四大新趋势

    汽车行业新时代的四大新趋势,如果说广州车展是车市的“回暖”,那么上海车展便是新能源车的盛放,电动化、智能化的未来已经是确定的,中国汽车市场的活力也将持续迸发。

    创投 2023年4月20日
  • 移卡有限公司将于2023年8月24日公布2023年中期业绩_行业动态

    香港,2023年8月14日 – 中国*的以支付为基础的科技平台—移卡有限公司(简称“移卡”或“公司”,股份代号:9923.HK)今天宣布,公司将公布其截至2023年6月30日的六个月的未经审计财务业绩。公司CEO刘颖麒先生、CFO姚志坚先生和董秘兼企业发展总经理赵维晨先生将于北京时间2023年

    2023年8月16日