深扒Sora:一场投资过亿的视频暴力美学

两周前,Sora现世,在AI领域又投下一颗重磅炸弹。演示视频中可以看到,Sora已经能生成含有多个角色进行特定运动的复杂场景。OpenAI在技术报告中称:“Sora这类视频生成模型是世界的模拟器。Sora是能够理解和模拟现实世界模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。”也有人并不认

两周前,Sora现世,在AI领域又投下一颗重磅炸弹。演示视频中可以看到,Sora已经能生成含有多个角色进行特定运动复杂场景

OpenAI在技术报告中称:“Sora这类视频生成模型是世界的模拟器。Sora是能够理解和模拟现实世界模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。”

也有人并不认同这种描述,Meta首席科学家Yann LeCun(杨立昆)认为:“仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。”

Sora为何会形成如此惊艳的效果?我们通过研究技术报告、访谈多位行业人士后发现,Sora背后虽然并非采用了多石破天惊的技术路线,但在视频模型技术路线尚未收敛的当前情况下,Sora达成的出色效果明显降低了其他市场参与者在技术路线上的试错成本,也在视频生成的设计逻辑等产品思路上提供了可借鉴的理念。

Sora会给行业带来怎样的剧变?接下来视频模型行业又将如何把握这次的挑战和机会?

“Sora给这个方向上的同行们指明了一条路,即Transformer也可以在视频模态下表现出很好的涌现能力。”线性资本投资副总裁白则人向36氪表示。

他认为,这会推动其他视频大模型公司加速研发节奏,迎来新的创业机会,开源技术在接下来也会取得进一步发展。

对于更多人而言,Sora解锁了对多模态视频大模型的新想象。OpenAI再次凭一己之力把多模态视频大模型推向了新的高度。在此之前,视频领域,受制于技术难度和数据集等难题,一直未出现类似ChatGPT、Midjourney这样的现象级产品。

Sora惊艳效果带来的启示:图片+视频混合训练

从产品细节来看,与其他同类模型相比,Sora生成的视频在时长、内容一致性、连贯性和分辨率方面表现出明显的优势。

深扒Sora:一场投资过亿的视频暴力美学

Sora生成的视频,图源:OpenAI

从目前OpenAI发布的demo效果中可以看到,在生成的一分钟视频内,可以明显感觉到视频中的场景伴随镜头运动进行变化,并且保持内容一致性。

这是此前我们在使用Pika和Runway等视频模型产品时很难体验到的。比如,在《》中,我们发现Pika把静态的图片转化成一段动态视频之后,视频中的人脸出现变形,且比照片显示更虚一点。

视频生成能力相比文生图,技术难度更复杂。AI生成视频工具不仅需要掌握基础的自然语言理解能力,还需要在画面流畅度、风格准确性、稳定性、一致性、动作连贯性等方面有较好的表现。

Sora做到了其他产品都没实现的一分钟时长而从技术实现来看,要想让一个模型生成的视频从4秒延长到10秒,背后涉及的技术问题就极为复杂。

其中,有一个重要的考量维度是视频生成逻辑问题:是image-to-video(图像到视频)路线,即先生成图像,再由图像生成视频;还是video-native(视频原声)的设计概念,即把图像和视频进行统一编码,混合训练。

“如果选择image-to-video(图像到视频)路线,用一帧一帧的图像去组成视频,比如先生成一个由32帧图像构成的一个4s视频,把这个视频最后一帧画面拿出来,作为下一个4s视频的起点。这种方式理论上可以,但是过程中误差会累计,且视频生成涉及到内容连续性问题,让问题变得更复杂。所以,最终第10s的画面会和初始视频相差甚远。”智象未来CTO姚霆表示。

Pika曾在一次采访中提到这种路线面临的挑战,“当视频很长时,确保每一帧都协调一致是个相当复杂的问题。在训练时,处理视频数据时要处理多张图片,如何将100帧图片传输到GPU上就是其中一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。”

Sora采用了混合训练的方式。在技术报告中,OpenAI提到,采用将图片和视频混合训练的方式用patch(视觉补丁)作为视频数据,来训练视频模型。

姚霆认为,OpenAI采用的这种video-native的设计理念,把图像作为单帧视频很自然地加入模型的训练,所以,Sora模型可以无缝切换为图像生成模型,这会促使技术人员去重新思考视频生成的设计逻辑。

他提到:“这也给了我们启发,从Sora效果中,我们看到,图像和视频的混合训练很重要,如果缺失了这一点,很难达到这样的高度。当然,这也证明OpenAI把技术架构之间耦合得很好。”

此外,对于Sora生成的视频中展示出的流畅运镜画面,也有人猜测,结合团队有专职数字内容的工作者来看,Sora在训练数据里包含了3D渲染数据,让它相比其他产品更擅长生成运镜画面,模拟出3D视觉效果。

这些都是Sora惊艳的效果背后的一些产品设计细节。

惊艳之余,另一个值得思考的问题是,虽然OpenAI把Sora称为世界的模拟器,但从目前的效果也可以看到其中的局限性。

“Sora未必真正的理解这个世界。”UCL计算机系教授汪军告诉36氪。

他举了一个例子,在现实的物理环境中,当一个玻璃瓶打碎时,会和其他物体的碰撞,这要符合物理规律现象。“如果Sora通过预测下一个token来生成视频,如何建立一个真正符合逻辑和物理规律的世界模型就会成为一个挑战,就像语言模型一样,有些模型可能只关注于生成人类可以理解的语言,但这并不意味着它们真正理解了物理逻辑。”

Sora的成功,是OpenAI暴力美学的再次胜利

OpenAI官网信息可以看到,Sora团队成立时间还未超过1年,核心团队共有15人,成员中甚至还有00后。

Sora为何能在这么短的时间内做到如此好的效果到现在都还是一团迷雾。这次Sora技术博客中,OpenAI也提到,不会分享技术细节,只提供了模型设计理念和demo视频,依照OpenAI越来越不Open的路子来看,未来我们也无法得知更多技术有效信息。

很多人都在探讨Sora的技术路线。目前,主流的视频模型框架有两种:Diffusion model(扩散模型)和Auto-regressive model(自回归模型),后者就是此前被很多人熟知的GPT模型。一直以来,视频生成模型的主流模型框架一直都未像语言模型一样收敛成一个确定性路线。

深扒Sora:一场投资过亿的视频暴力美学

 图片由智象未来CTO姚霆制作

智象未来CTO姚霆告诉36氪,两大路线的区别在于:“Diffusion model(扩散模型)基于扩散模型加噪去噪的机制可以更好地结构化,并生成较高质量画质的视频内容,而 Auto-regressive model(自回归模型)更适合长上下文语境理解,天然适配多模态对话的生成方式。”

在具体的技术实现中,两大路线之下也会继续衍生出不同的细分架构。比如,Diffusion模型路线之下,Gen-2、Pika就采用了U-net(卷积神经网络)架构,也有公司把U-net架构换成Transformer架构,采用DiT(Diffusion Transformer)架构。

Sora被认为就是采用了DiT的架构。这是目前市场的广泛猜测,主要依据是2023年Sora研发负责人之一Bill Peebles与纽约大学助理教授谢赛宁曾发表的DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》。

据36氪了解,国内的多模态视频模型创业公司爱诗科技在创立之初就选择了这条路线,而另一家创业公司HiDream智象未来也采用了DiT架构。姚霆称:“其实我们在图像生成模型上已经自研验证了一套成熟的DiT架构,相较于U-Net,DiT架构灵活度更高,且能增强图像、视频的生成质量。”

所以单从技术路线来看,Sora选择的技术架构并不是多稀缺的选择,只是早前各家视频模型公司考量不同,选择不同。

“技术路线Sora展示的信息中并没有很特别的东西。OpenAI肯定有自己独特的训练方法。”汪军告诉36氪。

他提到,“通过大规模的训练,使得能够利用海量的数据和计算资源,将工程方面做得非常出色,在我看来,算力和数据尚未到上限,还有进一步发展的空间,可以进一步挖掘数据潜力,在文本、图像甚至视频上进行更深入地处理,将模型能力提升至新的高度。”

所以,虽然没有进行底层技术路线创新,但OpenAI的强大之处在于,在这个路线上不断践行大算力、大数据的暴力美学——通过大力出奇迹的方式,依靠细致的工程化创新,推进模型涌现能力的持续优化。

OpenAI在报告中提到:我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径——“在相同的样本下,随着训练计算规模的增加,视频质量显著提高,也会表现出许多有趣的新兴功能,使Sora能够模拟现实世界中人、动物和环境的某些方面。”

此外,OpenAI也在论文中提到Sora也结合了GPT等产品能力。

姚霆认为,Sora强大建立在过去对DALL-E和GPT模型的研究之上。“Sora是OpenAI集成自己语言(GPT)、视觉理解(GPT4-V)和图像生成(DALL-E)多种能力的一个出口,它使用DALL·E 3的重述提示词技术,为视觉训练数据生成高度描述性的标注,因此能够更忠实地遵循用户的文本指令。”

目前,关于Sora参数量、训练数据的各种猜测甚嚣尘上,出入也很大,有人猜Sora的模型参数规模是百亿级别,训练成本是千万美元级别,也有人觉得参数规模可能只有3B,但数据标注成本不低,更有人认为Sora的推理算力需求是GPT-4的1000倍以上。

出门问问创始人李志飞称,Sora用的训练数据可能是数百万小时:“一般视频的分辨率超过128*128,最终的Tokens量应该至少是十万亿级别。如果Sora用了500万小时视频数据训练,那它使用的数据量大约相当于Youtube上9天的数据产出量。”

参数和数据量只是模型的其中一个方面,相比文本模型而言,视频模型的数据复杂度更高,维度更多,优质数据来源更少,数据标注难题更大,这些都是视频模型公司在具体模型训练中面临的工程化难题。

此刻,对于其他视频大模型公司而言,Sora惊艳的能力一方面验证了DiT架构,减少了在技术架构选择上的试错成本,能更快往前发展,另一方面,他们也需要面对更有挑战的现实难题——在没有OpenAI那样强大的人才和算力储备下,如何加强算法、数据等各个环节的工程化能力来追赶Sora。

国内视频模型公司如何把握机会?

Sora发布之后,有人悲观,认为:“Sora出现,其他视频公司都歇菜了”“国内外差距被进一步拉大”;也有人在剖析了更多细节之后认为视频模型的机会在被Sora激发之后,会迎来全新的发展空间。

一方面,Sora的技术路线有借鉴意义,能够让其他公司避免路线摇摆,加速进行产品,另一方面Sora带动市场更受关注之后,会吸引更多的人才、算力、数据、资金,迎来新的创业机会。

从Sora目前的进展可以看出,尚未实现实时更新,且等待视频生成的时间也比较漫长。这意味着,Sora尚未经受ChatGPT这样大规模用户的运行考验,其模型的计算资源和优化程度尚未达到理想状态,还需要时间进行继续迭代。这给其他公司留下了时间和空间。

据Reddit社区上的网友爆料,OpenAI在展示Sora功能时,主要使用了预先选择的示例,并未允许公众通过自定义提示词来生成视频,且生成一个1分钟的视频,Sora需要超过1个小时的渲染时间。

爱诗科技的创始人王长虎称,在他看来,目前Sora的技术发展相当于在GPT2和GPT3之间,还没到GPT4的水平,留给市场的空间很大。

线性资本投资副总裁白则人告诉36氪:“模型的发展会加速催生更繁荣的上层应用,带来更多的应用创新机会,这其中包括视频模型方向,也包括结合多模态的应用场景。但如何做出差异和建立长期护城河,是产品层创业公司一直面临的挑战,创业团队更需要关注模型之外的壁垒建立,更回归产品体验、应用场景和商业本质。

市场进展方面,国内很多企业也早有布局。首先,大厂在视频领域的动作不断,基本上在推进语言模型业务的同时也布局了视频模型业务:

字节旗下剪映最近动作频频,目前,剪映已经在邀请一些博主内测旗下AI创作平台Dreamina的视频生成功能。

阿里通义实验室目前开发了开源视频生成模型和代码系列VGen。去年年底,阿里发布了最新AI应用:Animate Anyone,可以根据一张人物照片,生成人体动画视频。

百度在年初推出了一款视频生成模型UniVG,能够处理各种文本和图像的组合输入。

腾讯在2023年12月与北大和香港科技大学联合发布了视频生成模型AnimateZero,并在今年发布了一个可以提升视频质量的视频处理工具VideoCrafter2。

相比算力和人才储备的大厂,创业公司面临的挑战更大,但也并非没有机会。据36氪了解,目前智象未来HiDream.AI、爱诗科技、HeyGen、生数科技、右脑科技等创业公司,都已经预先布局视频大模型的业务。不同于上一波语言模型的国内国外各自地盘发展的情况,在视频模型领域,像爱诗科技等公司在早期就瞄准了海外市场,相当于与Sora在一个市场展开竞争。

有不少行业大佬已经入局。爱诗科技的创始人王长虎曾任字节跳动视觉技术负责人,主导了抖音和TikTok等产品,以及字节跳动视觉大模型从0到1的建设;智象未来HiDream.AI创始人梅涛曾是京东集团副总裁和微软研究院资深研究员;生数科技则由清华人工智能研究院副院长朱军教授带领,核心成员来自清华大学人工智能研究院。

所以综合目前国内视频模型公司进展来看,接下来,大厂和创业公司都会陆续加大投入,行业的竞争会进一步加剧。而大厂的优势在于,在人才、资金、算力上有原始积累,并且有数据和场景,而创业公司则可以利用自身快速敏捷的作战模式,加速模型和产品迭代,把握产品层的创新机会。

此外,在商业化路径上,由于Sora并未像ChatGPT一样开放公测,所以现在也无从看到清晰的商业模式,但从OpenAI释放的信号来看,可能依旧是以通用模型为核心。

但对于中国创业公司而言,在算力成本、数据训练等多重压力下,在商业化过程中也会较早面临路线选择。

未来,视频模型创业公司在不断发展之后也将出现不同的分野:一条是不断增强基础模型能力,打造C端产品路线,比如爱诗科技就选择了这条路,根据海外流量检测网站similarweb.com,目前爱诗海外产品PixVerse月访问量增长迅猛,已经超过百万;另一条是瞄准特定的场景进行训练,打造专门的视频模型,早日跑通某个B端场景的商业化闭环。

姚霆认为,视频生成赛道,对于创业公司而言,需要在早期就思考产品如何构建,从中寻找差异化的机会。“目前,视频生产还处于单镜头阶段,未来,如果要生产一个短视频或者短剧,视频生产流程需要考虑多镜头、分镜、故事逻辑等各类问题,这些产品问题都要前置考虑。”

技术、产品、商业化,每一处都内含成千上万个待解决的细节问题,2024年接下来的时间,对每一家视频大模型而言,都是一场硬仗。

(0)
小多多的头像小多多创始人

相关推荐

  • 开美发店需要多少钱 成本很低收益很高的项目-财经

    美发店现在是一种刚需,所以开美发店就成了不少创业者们的选择,那么开一家美发店的话,需要多少钱呢?这篇文章就跟大家聊聊这个话题。 开一家小规模理发店投资5万元左右即可,小规模的理发店…

    创投 2022年1月25日
  • 刘强东被逼急了

    近日,刘强东发文“自我检讨”一事受到行业热议。12月9日,有京东员工在内网指出京东5大问题:促销机制复杂、大促节奏和力度跟随友商、POP商家未得到足够支持、低价心智需人人执行到位,以及除3C家电外,京东没有其他品类优势心智。刘强东看到后,迅速跟帖回应:“句句点到了公司的痛点,都是现实存在的问题,而且

    创投 2023年12月15日
  • 首期结营!复旦MBA科创青干营一路追光,再启新程_行业动态

    2023年7月7日,复旦MBA科创青干营首期正式结营,多位学术导师、企业家导师和企业嘉宾,科创青干营首期及部分二期学员,共同见证了这一时刻。…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    2023年7月20日 创投
  • 史上最大一笔并购募资,2000亿

    史上最大一笔并购募资,2000亿,行业整合者更喜欢过冬天——市场越冷,反而是并购者迫切入场的时机。也许,一个属于并购基金的大时代正徐徐展开。

    创投 2023年7月24日
  • 小红书向左,大众点评向右

    小红书向左,大众点评向右,从后续生活的竞争趋势来看,美团+大众点评、抖音、小红书仍将持续发力,快手、高德、拼多多等“后浪”也不甘示弱,一场新的本地生活大战即将打响。但本地生活赛道最为核心的一个逻辑是基于“核销”产生的,冲动消费只占本地消费很小一部分,大部分消费者是先有需求、后有下单。这一逻辑与“搜索电商”类似,即消费者先有了目标,进而进行搜索和下单,推送式的团购核销率并不高。

    2023年5月18日
  • 旋转小火锅投资大概要多少钱 先了解清楚再决定是否入行-财经

    作为一个非常受消费者们欢迎的项目,很多人都想知道,开一个旋转小火锅需要多少钱,这篇文章就跟大家聊聊这个话题,简单的介绍一下。 店面的装修费,最好是简装,大概需要2-3万左右,装修完…

    创投 2022年1月25日
  • 00后的新社交神器,人手一条「地摊货」?

    00后的新社交神器,人手一条「地摊货」?,珠光流转之间,手串的贵重与否不再重要,哪怕是最廉价的矿石和木料,玩家们依然在其中倾注了自己的心意。

    创投 2023年6月29日
  • 2023年,互联网没有顶流

    2023年过去了,你还记得哪些火遍互联网的新晋网红?是素人网红代表:靠一首“挖呀挖呀挖”吸粉百万的美女幼师黄老师;今年夏天再次翻红的“中老年顶流”秀才、一笑倾城;10月份爆火不到一个月即“塌房”的于文亮;这两天刚刚走红的70后中年男人“闻神”?还是平台力捧的明星代表:小红书年初的现象级带货人董洁、双

    2023年12月25日 创投
  • 适合农民工创业项目 干好了比打工可强太多了

    现在很多常年出门打工的农民工都不愿意再出门了,以至于很多人都想知道有哪些项目适合农民工返乡创业,这篇文章就跟大家简单聊聊这个话题! 首先最推荐的大家的项目是农村生态养殖,对于目前的…

    创投 2022年1月25日
  • 如何从投资和经营视角看文旅产品的顶层设计?

    如何从投资和经营视角看文旅产品的顶层设计?,文旅产品的顶层设计就是真正回归文旅产业本源,站在投资人的角度,以游客需求为导向,以市场化的思维、资产管理的逻辑进行产品的谋划,重视投资效率和经营效益,实现文旅产品商业逻辑的自我闭环和可持续运营。

    创投 2023年6月30日
  • 国泰君安佣金是多少 万分之几

    国泰君安的佣金不超过成交金额的3‰,起点5元,买卖双向收取。国泰君安主营业务有:证券经纪;证券自营;证券承销与保荐;证券投资咨询;与证券交易、证券投资活动有关的财务顾问;融资融券业…

  • 字节游戏朝腾讯开了一枪

    字节游戏朝腾讯开了一枪,诚如张一鸣曾经说过的那样:“事情没有边界,时间也没有边界,最重要的就是向前跑。”

    2023年8月2日 创投
  • 短剧狂飙,但为什么我们身边没人看?

    2023年,一定是短剧史上浓墨重彩的一年,造富神话在这个行业愈演愈烈。无论是否曾经涉足相关产业的人,都迫切希望能够投入短剧事业,社交媒体上大量出现收剧本、求组队,一起发财的操作。八月底,小程序短剧《*》上线24小时充值超过5500万元,8天后突破一亿,此举彻底点燃了短剧从业者的心,四处眼花缭乱的战报

    创投 2023年12月2日
  • 张勇救火阿里云120天

    张勇救火阿里云120天,张勇执掌阿里云,激起了在职员工夏梦内心久违的波澜。“阿里云或许有机会独立上市了,我等这个时机已经很久了。曾有不少抱着同样期待的人,最终被熬走了。”

    2023年5月4日
  • 华为汽车业务新变数

    余承东在华为智能汽车解决方案BU(以下简称“车BU”)的职位,有了新变动。9月22日上午,华为官网正式更新管理层信息,余承东的车BU CEO职位,已经替换成了车BU 董事长。据*财经报道,原华为光产品线总裁靳玉志将接替余承东出任车BU CEO一职。自2019年5月车BU成立以来,余承东在车BU的每次

    创投 2023年9月22日