谁是中国版Sora?

鏖战一年的“百模大战”还未结束,两个海外AI巨头又给国内科技大厂出了难题。就在春节假期的尾声,谷歌和OpenAI毫无征兆地放出了各自的 AI新“核武”。谷歌拿出的新一代多模态大模型Gemini 1.5 Pro,将性能提升到了百万级别,完全秒杀了OpenAI的GPT-4 Turbo,暂居地表最强。而后

鏖战一年的“百模大战”还未结束,两个海外AI巨头又给国内科技大厂出了难题。

就在春节假期的尾声,谷歌和OpenAI毫无征兆地放出了各自的 AI新“核武”。

谷歌拿出的新一代多模态大模型Gemini 1.5 Pro,将性能提升到了百万级别,完全秒杀了OpenAI的GPT-4 Turbo,暂居地表最强。

而后者发布的*文生视频模型Sora ,则基于视觉美学的惊艳表现,更让人印象深刻,迅速成为全球科技圈追捧的热点。

在生成视频的保真度、长度、稳定性、一致性、分辨率、文字理解等各方面,Sora已经超过Gen-2、SVD-XT、Pika等主流产品,做到了当前*,可以说一出手就是王炸。

去年,国内的百度、阿里、科大讯飞等互联网公司纷纷推出了自研大模型,争抢智能变革时代的船票;华为、小米、OPPO、vivo等手机厂商也布局大模型,希望新技术为见顶的市场带来新的生机;众多创业公司也进入该赛道,试图轻装上阵、弯道超车。

但物理意义上的鸿沟让国内的大模型产品在性能、生态等方面还与ChatGPT有着不小的差距。而如今视频生成模型Sora的诞生,不出意外也将再次掀起一波跟风的浪潮。

然而,颠覆性的效果往往来自颠覆性的思路。从当前节点来看,在AI大模型领域国内企业与世界前端到底还有多大差距?差在哪里?又有哪些种子选手可能脱颖而出?

01

恐慌

对于Sora的横空出世,马斯克的评论“gg humans(人类认输了)”,算是一种主流看法。

此前,虽然已经有大量文生视频技术,但尚未实现技术收敛,主要实现路径是通过各种手段让单帧的图片“动”起来,类似定格动画。而从用户的实际需求来看,视频每一帧之间的连贯性与自然度是价值的关键,也就是视频每帧语义信息的无缝衔接才是核心。

也就是说,Sora这种围绕需求提供对应技术解决方案的产品,要远远优于通过技术可实现的角度来创造产品。

根据OpenAI官网上的介绍指出,Sora与之前的文生视频思路并不一样,是让模型一次预测多帧画面,并且确保视频主体保持不变。这正是其巧妙之处——在视频帧上做突破,提升了生成视频的使用上限。

360创始人周鸿祎也给予了极高评价,他认为Sora的诞生意味着AGI(通用人工智能)的实现可能从十年缩短至一两年。

作为Sora的前辈,AI文生视频创企Runway联合创始人兼CEO Cristóbal Valenzuela感慨道,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。

Sora发布前还曾有很多烟雾弹式的信息被放出。比如OpenAI 组建了研究儿童安全的新团队,或是正准备推出 GPT-4.5-turbo,但真正的“杀手级更新”被隐藏得很好。这也导致像Pika、Runway一样的明星创业公司,面对Sora措手不及。

其实,国内外大厂对于AI视频生成的态度一直模棱两可。根本问题在于,现在的人工视频质量、效果更好,且成本也能接受;AI 视频生成此前没有大家想象的那么颠覆,所以整体策略偏向防御,而非进攻。

值得一提的是,国内的字节跳动以及百度的嗅觉更加敏锐。百度早在去年3月文心一言的发布会上,便发布了AI文生视频的功能,百度AI会自动根据文字内容寻找合适的视频素材,生成视频后并自动发布,这是属于文心一言AIGC的TTV(文本内容情感化分析)功能。

字节跳动则在去年11月发布了PixelDance,可以通过上一个视频片段尾帧,为下一个视频片段头帧提供指导的思路,在视频时长上有所突破,但至今仍然没有开放用户测试,所以具体效果如何还是未知。

如果从GPT的发展路径来看,所有做AI视频生成甚至做大模型的公司将面临新一波危机。就像周鸿祎所说,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5还是机器自我学习自动产生内容。

但是危险中也蕴藏着机遇。OpenAI证明了用大模型的思路做视频是可行的,文生视频能蔚然成风成为全球新一轮AIGC竞赛的焦点,也给短视频平台上的直播电商、内容创作等带来更高的天花板。其他互联网企业和内容平台,需要做的只是证明自己也可以用大模型做出视频。

从技术角度来看,Sora属于多模态混合模型,由大语言模型和文图生成器拼接而成。这也意味着多模态模型迭代节奏加快,不出意外2024年的*波AI风潮将就此展开。

02

风起

自2022年末ChatGPT崭露头角,其强大的影响力如野火燎原般蔓延至国内科技圈。百度、阿里巴巴、腾讯等一众互联网大厂,以及以米OV为代表的智能硬件公司,仿佛嗅到了新时代的气息,纷纷宣布推出自家的大模型,意图在这波AI浪潮中占据一席之地。

与此同时,文生图、文生视频等多模态AIGC产品也在有序推进。实事求是地来看,AI生文、生图的应用,早已层出不穷,相关的技术不断日新月异。相比之下,AI文生视频,却是一个迟迟未被攻下的阵地,难度和价值一样巨大。

公开信息显示,包括字节跳动、百度、阿里、海康威视、万兴科技、拓尔思、当虹科技在内的科技公司,都在积极布局文生视频,但与Sora相比存在不小的差距。

简单来讲,之前的AI文生视频工具,仅仅停留在“模拟现实”的层面,Sora则已经跃升到了“构建现实”的新高度。两者的根本区别在于,前者只是对现实世界的表面模仿,难以深入捕捉现实世界的物理规则和动态变化;而后者则是在虚拟世界中重新构建了一种与现实世界并行的存在。

Sora不仅学习了像素与画面的呈现,更深入理解了现实世界的“物理规律”。例如在现实世界中,我们每咬下一口食物,食物上都会留下咬痕,这是遵循物理规则的自然现象。Sora生成的视频中,同样能够精准地再现这一细节,做到“咬下去有痕迹”,从而在虚拟世界中*再现了现实世界的真实感。而这是其他文生视频产品所做不到的。

以百度的文心一言为例,虽然其能够根据输入的文本生成视频,但在处理复杂场景和细节描绘方面仍存在不足。并且百度AI文生视频也更像是从已有素材库中找到更接近文字意思的视频进行拼接,单靠AI很难生成新的视频内容。

今年初,字节跳动发布了一款超高清文生视频模型MagicVideo-V2。据悉,该模型输出的视频在高清度、润滑度、连贯性、文本语义还原等方面,比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika 1.0等更出色。

抖音的张楠已于2月初辞去CEO岗位,聚焦在剪映业务上。这意味着,抖音将加强对AI生图和视频产品的布局,其中文生视频自然是重中之重。

不过在张楠的规划中,AI视频所应具备的更高保真度生成效果、更清晰生成画面、更顺畅自然的逻辑理解能力等,也被Sora一朝之间吊打。

相对于互联网巨头的低调表现,一些上市公司在近期却积极发声,纷纷披露自己在视频生成模型领域的业务情况。

据不完全统计,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司,近三个月以来在互动平台上各自披露了相关视频生成模型领域的业务情况。

但不能否认的是,真正达到前沿水平的公司凤毛麟角,许多公司只是在跟风炒作,缺乏真正的技术储备和研发能力。

东方国信直言不讳地表示,他们在AI视频生成领域尚无成熟的技术储备;而神思电子则回应称,公司正在对文生图、图生文、视频生文、文生视频等多模态数据互相跳转的收敛性质进行深入研究,言下之意,他们在这方面的技术也还在探索阶段。

AI文生视频的颠覆性,可以具体到实际运用层面来看。图片、视频生成能帮助提高企业的商业化需求,如帮助降低广告客户成本、便捷制作视频等。拿字节跳动举例,其广告客户投放总成本中有一到两成为视频制作成本,而去年开始字节已经用相关产品帮助广告客户压缩这部分投入。

与上一波ChatGPT的风潮相似,尽管在推出类似AI文生视频产品方面国内企业难免落后一步,但也不失为一个摸着Sora过河的机会。

03

涌动

从全球市场来看,AI仍然引领着整个科技商业前进的方向,而且多模态成为主流。从大语言模型到多模态,再到通用人工智能的路径已经逐渐清晰,分歧点还是在于节奏的判断。

此前,OpenAI花了大约半年时间来测试大语言模型GPT-4。如果测试Sora需要差不多的时长,这个强大的视频生成工具可能会在今年8月份开放。而这半年时间便是其他企业积累力量的窗口期。

毕竟ChatGPT已经问世一年多,但还有大量用户没有使用过聊天机器人相关产品,这也为其他企业迎头赶上提供了机会。

而目前国内企业面临的*问题,还在于*梯队的AI公司如百度、科大讯飞的股价,因各种原因被打到了地板价,而国外的*企业,如英伟达、微软的股价创出新高,OpenAI的估值仍然在不断上升。这也意味着海内外AI企业在资本、人才、技术、市场号召力等方面存在着天然的优劣差异。

周鸿祎认为,科技竞争最终比拼的是人才密度和深厚积累。事实也是如此,Sora应用的是Transformer+Diffusion。从模型架构来看,如果以Transformer为基准,那么文生视频依旧是龙头科技企业更有优先权,但是如果生成式视频架构依旧围绕Diffusion展开的话,创业企业机会要更大一些。

不过没有一骑绝尘的技术,只有螺旋式上升的产业繁荣。

Sora虽然可以一次性生成几十秒到一分钟的视频,但是真正在应用阶段,如果产品没有提供足够多的微操空间,确保用户能够将其整合到自己的工作流中,那么大概率也只能叫好不叫座。

好在技术的扩散才刚刚开始,不会有任何一家公司“猝死”在新技术的出现上。OpenAI更像是一个开拓者,强项在于铺路,普及应用尚需要生态的力量。

就像是在文生文模型上的模块化组合,是否会有类似手机、智能音箱一样的专有智能设备问世?让更多用户可以在端侧使用模型,构建起开源+小参数模型+移动端的思路,把当下的产品做一次革新。这是国内厂商所擅长的,但同时也是未来内卷的阵地。

从单点的突破来看,Sora具有里程碑意义;但是从商业化需求和混剪工作流效率提升来看,Sora本身的价值和落地效果还有待考究。

想仅靠AI生成的一分钟视频成为下一个董宇辉、李佳琪并不现实,更别说制作长视频或者电影、电视剧了,即便是做一个短视频,是通过一遍遍修改提示词更加有效率,还是在视频剪辑软件里按照创作者的想法调整素材更快?显然,期待Sora变得更强,不如期待视频剪辑软件中尽早增添AI模块,从而切实提升工作效率。

即使最终Sora全面放开注册,普通用户也难以做出如当前演示案例般的视频Demo。所以最终各个大厂的决胜点还是在于如何普及多模态的应用,如何在工具中加入AI功能,更直接地优化工作流程。

新兴技术具有普适性,并不是某个企业的专属。对于国内企业来说,在多模态上的探索不妨可以参考GPT的发展、落地方式,在特定垂直领域的应用层面找到自身的优势,并以此作为方向实现快速发展。

只是在这个过程中,拼的还是人才密度、落地程度以及犯错误的次数。

(0)
小多多的头像小多多创始人

相关推荐

  • 储能出海,全球赛道酝酿新变化

    出海,成为储能的关键词。迈入2023年,中国储能企业在海外高歌猛进,特别是近期蜂巢能源、阳光电源、瑞浦兰钧等陆续斩获海外大单,成为行业的一抹亮色。这意味着,全球储能赛道正在酝酿新的变化。加码海外储能市场,背后是何缘由?中国玩家,出海有哪些竞争优势?磷酸铁锂电池,扛起中国储能的大旗?海外需求大,出口利

    创投 2023年9月21日
  • 营收超5倍增长后,新药AI将诞生第一股?

    营收超5倍增长后,新药AI将诞生第一股?,伴随即将亮相港交所,英矽智能将进入经营的新阶段,我们也希望AI技术平台产出更多的临床新药。

    2023年6月29日 创投
  • 微软押注法国开源AI独角兽,OpenAI或将成备胎

    刚刚,一则关于微软(Microsoft)的重磅消息震撼了整个 AI 行业。北京时间2月26日23点,市值达3万亿美金的科技巨头微软宣布,其与法国开源 AI 初创公司Mistral达成深度合作。与OpenAI一样,Mistral未来将把模型资源放在微软云当中。因此,Mistral将成为第二家在微软Az

    2024年2月27日 创投
  • 买了恒瑞一个管线,A轮就融了2.45亿美元

    10月24日,Aiolos Bio宣布完成2.45亿美元A轮融资,由Atlas Venture、Bain Capital Life Sciences、Forbion 和 Sofinnova Investments领投,RA Capital Management 跟投。Aiolos Bio致力于开发呼

    2023年10月27日
  • 消失的「摩托车大军」,未尽的春运故事

    2008年年初,在广西老家办完一场轰轰烈烈的婚礼后,杨萍和丈夫跨上摩托车,一脚蹬燃,驶向千里外的广州,开启新一年的打工生涯。此后,每逢岁末年尾,杨萍两口子就骑着摩托车,从广东返回家乡,又在新春开年,从家乡去往广东,一趟趟行程中,杨萍如蚂蚁搬家般,将大城市的繁华一点点地挪至千里外的小家。“近一千公里、

    2024年2月8日
  • 一家头部疫苗Biotech,只值1.3亿美金

    一家头部疫苗Biotech,只值1.3亿美金,对于生物科技企业来说,市值是支撑再融资的关键,也是决定能走多远的决定性因素。毕竟,技术不一定能够变现,但高市值却可以。

    创投 2023年7月28日
  • 股票代码100399 山东鸿星新材料科技股份

    一、关于山东鸿星 山东鸿星新材料科技股份有限公司(股票代码:100399)为山东省财金集团参股企业,位于山东省滨州市国家级高新技术产业园。山东鸿星致力于高端装配金属幕墙系统、建筑金…

  • 慕思和辛巴谁该为「破价床垫」背锅?

    “我把命都赌在这张床上了。”辛巴振臂一呼,给高端床垫品牌慕思带来了超过10亿的销售额。今年双十一期间,辛巴在直播间售卖一款慕思旗下的大黑牛软皮床,赠送一款黑金床垫。这一套主播口中市场价值2万元的产品,在直播间里价格被“打到了”5800元,再加上平台补贴的820元,最终到手价为4980元,也引发了大量

    创投 2023年11月3日
  • 刚刚,华平投资宣布亚洲新一代领导团队

    今日(12月4日),华平投资正式宣布,将凭借其在中国、印度和东南亚地区积累的丰富经验与业绩,进一步拓展其亚洲业务。与此同时,华平投资新一轮人事调整出炉——Vishal Mahadevia晋升为新设立的华平投资亚洲私募股权投资总裁,方敏和周朗升任为华平投资中国私募股权投资联席总裁。在华平投资任职20年

    2023年12月4日
  • 致力于高热导率氮化铝陶瓷基板研发,「华清电子」完成数亿元C轮融资

    投资界(ID:pedaily2012)10月23日消息,据猎云网获悉,福建华清电子材料科技有限公司(以下简称“华清电子”)完成数亿元C轮融资。本轮融资由尚颀资本及上汽集团战略直投基金联合参与投资,其他投资人包括中车资本、元禾厚望、正奇资本、华金资本等。据了解,华清电子成立于2004年8月,公司系引进

    2023年10月23日
  • 「无问西东」:网约车行业的拐点时刻

    时至今日,网约车已经成为人们出行的重要选择。数据显示,2022年,全国网约车用户规模已达4.37亿人,一线和新一线城市渗透率达到50.3%和20.3%。伴随着线下场景的放开,出行行业再度出发。根据交通运输部发布的数据,截至2023年初,全国网约车行业已完成超过25亿人次订单,市场规模已超过1500亿

    2023年9月20日
  • 快餐店怎么做才吸引人 教给大家一些好用的方法-财经

    作为一个很受创业者们追捧的项目,很多人都想知道,开一家快餐店的话,怎么做才吸引人,这篇文章交给大家一些好用的方法! 快餐店消费人群大多数是打工一族或是学生,他们收入属于中、下层,所…

    2022年1月25日
  • 当年轻人买走了6成高端护肤品

    当年轻人买走了6成高端护肤品,当年轻人需要高端护肤,有哪些国货护肤品牌率先向中高端出击?这些品牌为此做了哪些突破?年轻人又为什么愿意买单?

    2023年3月27日 创投
  • 炒股是怎么赔钱的 看看你有没有被说中-财经

    说起投资股市,很多人最热衷的就是想知道,有没有什么方法是一定赚钱的,但是这种方法真的是没有的。这篇文章咱们就反其道而行之,看看,炒股赔钱的人都有什么共性,大家有则改之无则加勉。 首…

    创投 2022年1月25日
  • 对话FusionFund创始人张璐:在无常中寻找恒久,深科技投资是改变世界的必经之路

    随着ChatGPT石破天惊地出现,深科技驱动的创新更强势地步入大众视野。在MIT管理学院发布的定义中,这类企业的特点是拥有重要的技术壁垒,并基于此将创新转化为变革社会的商业产品。近些年,疫情席卷全球、自然灾害频现、人类社会面临着种种生产力的局限性,一个全球共识呼之欲出:唯有突破性创新能够成为解决问题

    2024年2月1日