Sora三巨头首次解密幕后信息

“Sora最快今年内开放公测。”在一场访谈中,OpenAI CTO Mira Murati亲自透露了这一消息。短短10分钟里,Sora技术细节、进展、规划等当下最热议的问题,都有了更进一步解答:生成20秒的720P视频只需几分钟计算资源远超ChatGPT和DALL·E目前正在进行正在进行红队测试未来

Sora最快今年内开放公测。”

在一场访谈中,OpenAI CTO Mira Murati亲自透露了这一消息。

短短10分钟里,Sora技术细节、进展、规划等当下最热议的问题,都有了更进一步解答:

生成20秒的720P视频只需几分钟

计算资源远超ChatGPT和DALL·E

目前正在进行正在进行红队测试

未来版本有望支持视频声效

而且还向外界传递了一层重要信息:

OpenAI在考虑发布这项技术时,抱有非常谨慎的态度。

“我们希望电影界人士和世界各地的创作者都能参与进来,与我们共同探索如何进一步推动这些行业发展。”

加上前几天,Sora的三名研发主管——Tim Brooks、William Peebles和Aditya Ramesh,也参与了一场16分钟的播客访谈。

综合两场对话,关于Sora背后的秘密,也有了更多蛛丝马迹可以探寻。

1、Sora背后还有多少秘密?

关于Sora,人们最关心也最期待的,可能就是什么时候才能上手体验了。

对此,Mira表示Sora正在进行红队测试,以确保工具的安全性,并且不会产生偏见或其他有害问题。

对于具体的时间,Mira也立下了flag——今年年内让Sora与广大用户正式见面。

此外,两场对话中谈到的其他话题,可以分为技术细节、项目规划和未来展望三个部分。

揭开更多技术细节

技术方面,三人团队表示,Sora更像是介于Dall·E这类扩散模型和GPT之间。

训练方式类似于Dall·E,但架构上更像GPT系列。

训练数据是不方便说滴(doge),大致就是公开数据和OpenAI已获授权的数据。

不过他们专门cue了一个点:通常图像、视频模型都是在一个固定尺寸上进行训练,而Sora使用了不同时长、比例和清晰度的视频。

具体方法之前的技术报告已经有了说明,就是用“Patches”来统一不同的视觉数据表现形式。

然后可以根据输入视频的大小,训练模型认识不同数量的小块。通过这种方式,模型能够更加灵活学习各种数据,同时也能生成不同分辨率和尺寸的内容。

性能方面,Mira和三人组的说法则略有不同:

三人组透露,有一次给Sora布置好任务后,出去买了杯咖啡,结果回来之后视频还没做好。

而Mira这边的回答则是,Sora生成720P分辨率、长达20秒的视频内容,只需要几分钟就能完成。

当然,具体消耗的时间,还要取决于任务复杂程度等多种因素,不能简单一概而论。

不过Mira这边表示,在正式发布之前将继续努力优化算法,以降低所需的算力。

这些问题还需解决

而针对Sora存在的不足,他们的回答也很坦诚,表示其还存在无法*处理手部的生成,渲染复杂的物理过程也存在一定难度等一系列问题。

除了这些bug型的缺陷之外,Sora不能给视频添加声音也算一个美中不足之处,对此三人组给出了这样的回应:

很难确定什么时候能有这样的功能,但这并非一个技术问题,而是目前有优先级更高的问题需要解决。目前,Sora还是更关注视频本身的生成,研究重点是提高视频的画质和帧率。所以,能够加入声音当然是更好的,但现在的当务之急,还是要把视频能力先搞上来。

而Mira对此的回答则更像是给人们吃了一颗定心丸——未来版本有望支持视频声效,增强用户体验。

而除了这些产品本身的问题之外,为Sora生成的视频加入溯源信息,以防出现造假,也是OpenAI当下的一项重要任务。

同时,负责人和Mira都表示,团队始终在收集来自各界的用户反馈,三人组还举例说有用户希望能加入提示词以外,更精细、直接的控制方式,团队将此作为了重点考虑的一个方向。

Sora,未来可期

最后,针对Sora的未来,负责人给出了很高的预期,并表示其将不仅仅在视频创作方面发挥作用。

我们的世界充满了视觉信息,其中有很多无法仅通过文本来传达。所以,虽然像GPT这样的语言模型已经对世界有了深刻的理解,但如果它们无法像人类一样“看”到视觉的世界,对世界的认识就会有所缺失。

因此,负责人对Sora及未来可能在其基础上开发的其他AI模型充满了期待——通过学习视觉信息的方式理解这个世界,在未来能够更好地帮助人类。

对此有网友表示,这的确是个好消息,Sora的意义不仅在于其本身,而且还会对其他AI产生影响。

另一边,已经有人在期待Runway等前任*对此的反应了。

Sora三巨头首次解密幕后信息

不过,虽然团队自己说Sora在未来能够理解人类世界,但它到底能不能真的算世界模型,还存在不小的争议。2、Sora是世界模型吗?

针对这个问题,正反双方各执一词,支持者的主要理由,是认为从Sora生成的视频中能看出其对物理世界的理解。

而反方则不认同Sora是世界模型,代表人物是图灵奖得主、Meta首席AI科学家LeCun。

近期,LeCun点赞了一篇澳大利亚学者的万字长文,文章的核心观点就是认为Sora不是世界模型。

Sora三巨头首次解密幕后信息

其中最核心的原因,是Sora并没有物理引擎来运行前向时间模拟,而且训练过程是端到端完成的,数据中并没有物理规律信息。

即便是抛开训练和生成过程,单从表现上看,Sora的输出也出现了违反重力、碰撞动力学等物理规律的情况。

所以,作者认为,将Sora称为世界模型是缺少充分依据的。

而人们比较关心的另一个问题,是Sora的训练过程,是否使用了虚幻引擎(Unreal Engine)5。

不过作者也没有给出确切结论,只表示这只是猜测,目前并没有确切的证据表明Sora确实使用了UE5进行训练。

而要想进一步揭开这些问题,或许要OpenAI再次自己出来公布,或者直接开源了。3、One More Thing

虽然两场访谈的确透露出了不少干货,但针对人们同样广为关心的训练数据来源问题,无论是三人团队还是Mira,说法都十分模糊——

Sora的训练过程中使用的是公开可用和已获得授权的数据源。

但对于YouTube、Instagram和Facebook上的视频是否被用作训练数据,Mira则是顾左右而言他:

我不知道,但如果这些数据是公开可用的,他们也许是(训练)数据(的一部分)……我不确定

不过,这个说法的可信度先放下不谈,即便真的如Mira所说,也有网友并不认账:

OpenAI好像觉得,只要是公开的数据就可以随便用,呵呵

Sora三巨头首次解密幕后信息

(0)
小多多的头像小多多创始人

相关推荐

  • 22亿,越秀南昌基金设立

    22亿,越秀南昌基金设立,南昌正深入实施强省会战略,持续推进“一枢纽四中心”建设,围绕“4+4+X”产业体系,不断做大做强主导产业、发展壮大数字经济、培育繁荣现代服务业,加快建设现代化产业体系。

    创投 2023年4月4日
  • 《中国好声音》制作方大跌:100多亿没了

    8月17日晚,一段疑似已故女星李玟生前讲述参与《中国好声音》时遭到不公平对待的录音曝光,引发关注。《中国好声音》通过官方微博回应称,“近日,部分自媒体账号在网络平台散布经恶意剪辑的录音‘李玟生前控诉《2022中国好声音》’,是对逝者的不尊重,也严重损害节目形象,我方表示强烈谴责。”并表示之后“出于对

    2023年8月19日
  • 工银红利基金净值 工银红利481012今天最新净值

    基金11月10日讯 工银瑞信红利混合型证券投资基金(简称:工银红利混合,代码481006)11月09日净值上涨2.06%,引起投资者关注。当前基金单位净值为1.4568元,累计净值…

  • 百模大战开启,AI进入路线之争?

    大模型战场再起波澜。搜狗搜索创始人王小川创立的百川智能发布了旗下第三款大模型产品Baichuan-53B,据介绍其训练参数高达 530 亿。而百川智能也放出风声,后续还会有多款产品发布。再加上科大讯飞的星火大模型升级、马上消费致力解决金融行业大模型在落地过程中的安全可控和隐私保护、基础设施能力建设等

    2023年8月17日
  • 掘金县城:折腾的青年,回归的中产

    五环外的下沉市场,一直都是扑朔迷离般的存在。不少报告、回乡观察者描述的有钱有闲的小镇青年,似乎比高线青年更敢消费。我县城的同学开着BBA、住着大别墅、喝着星巴克。但我在大城市租着出租房,每天花几小时通勤上班。穿着某多、某宝买的几十块的衣服,喝着蜜雪。但工资收入、就业机会、产业结构不及高线城市的县城,

    2024年3月15日
  • 知网擅录教授论文 科研领域更看重知识产权

    作为一个很多人都能用到的工具,只要是写论文的各位一定都接触过知网,这两天知网因为侵权受到了很多的讨论这篇文章就跟大家聊聊。 据悉,该教授今年89岁,是中南财经政法大学长期从事中国经…

    创投 2022年1月25日
  • 成立两年的mRNA公司,卖了8.5亿元

    成立两年的mRNA公司,卖了8.5亿元,或许,那些投资人会懊恼,当初应该慢一点,更谨慎一点;创始人会后悔,当初应该快一点,更快一点。

    2023年6月29日
  • 飞荣达上半年利润大幅增长,二季度盈利2914万元,业绩向上拐点显现_行业动态

    飞荣达(300602.SZ)8月18日晚间披露的2023年半年报显示,公司今年1-6月实现营业收入17.78亿元,同比增长3.20%;实现归属于上市公司股东的净利润401.89万元,较上年同期增长110.91%;获得经营活动产生的现金流量净额2.58亿元,同比增长23.73%。毛利率显著提升,业绩

    2023年8月21日
  • 妙鸭相机,凉了?

    曾经全网刷屏,被业内称之为AIGC*个现象级产品的妙鸭,也没能躲过新鲜度一过,热度迅速下滑的命运。用户端,热情不再。“就那波朋友圈刷屏高峰中,我也花了9.9元,并分享给朋友为了更多的下载钻石之后,无论是现在的APP还是此前的小程序,再也没打开过。”程小可对当时妙鸭在朋友圈刷屏的场景印象深刻。但也就两

    创投 2023年9月5日
  • 可怕的坚持,日本饮料默默深耕中国40年

    去年,全民疯抢电解质水,让元气森林赚翻了。但很多人不知道,笑得最开心的是一家日本药企。为了这一天,它已苦苦等待数十年,并在中国市场上坐了十几年冷板凳。更可怕的是,这样的日本企业还不止一家。40年的坚守,让日本人笑到了最后。01 日本财阀笑了“键盘都打出火星子,买的人实在太多了。”2022年底,一种

    2024年3月13日
  • 一批新中式茶馆开始倒闭

    去年以来,“新中式茶馆”成为了不少消费者追捧的打卡地,创业者也嗅到其中的商机,纷纷加入这条赛道。如今回顾这门生意,我们却发现一些新中式茶馆创业者正在“退坑”,新中式茶馆在社交平台上也不复往日风光。从现象级走红,到创业者撤离,这中间究竟发生了什么?新中式茶馆还是一个创业的好赛道吗?01 开一天亏一天,

    创投 2023年12月5日
  • 配资是干什么的 配资公司的优缺点盘点

    什么是配资,配资公司是什么?相信有部分人不是很了解,配资到底是干什么的呢?今天,小编就给大家介绍一下配资公司,顺便去了解一下配资公司的优缺点是什么?如果你想要有更多的了解,不妨跟着…

    创投 2022年1月25日
  • 京东一夜大涨400亿

    过去三年,曾经市值超万亿的京东,跌没了八成。拼多多等的异军突起,让京东失去了电商二哥的地位。刘强东也时隔四年强势出手,拯救疲弱的股价。3月6日,京东在2023年财报中宣布,未来三年回购不超过30亿美元的股份,约占公告前京东美股市值的10%,这也是京东时隔四年后再次宣布回购股份计划。同时,京东还提高了

    2024年3月10日
  • 「妈妈岗」推行之后:妈妈赚钱又带娃,爸爸去哪儿?

    「妈妈岗」推行之后:妈妈赚钱又带娃,爸爸去哪儿?,最近,深圳举办了一场“妈妈岗”专项招聘会。我们到了现场进行了一番了解,也和来寻找机会的全职妈妈、以及正在从事“妈妈岗”的女性聊了聊。

    创投 2023年7月30日
  • 深智透医AI医学影像增强产品SupMR、SupPET获欧盟新规首证

    刚刚结束的2024年欧洲放射学大会(ECR)上,深智透医(Subtle Medical Inc.,下简称“深智透医”)宣布两项突破性进展——其旗舰产品SupPET、SupMR(CE注册名称SubtlePET、SubtleMR)获得欧盟新医疗器械法规(MDR)认证,成为获得MDR新规认证的首 个AI医

    2024年3月5日 创投