Sora,OpenAI的又一枚重磅炸弹!

最近两天,手机朋友圈、各种自媒体圈子已经被这个代号“Sora”的文生视频模型给疯狂刷屏了,OpenAI悄无声息的向市场再次投放了一颗重磅炸弹。AI时代已经彻底颠覆我们的认知!

Sora是何方神圣?

Sora,OpenAI的又一枚重磅炸弹!

打开官网,“Creating video from text”一行大字映入眼帘,翻译过来就是:通过文本来生成视频。具体的说,Sora是一个人工智能模型,可以通过文本指令来创建现实和富有想象力的场景。

能力

官网介绍,OpenAI正在教人工智能去理解和模拟运动中的物理世界,目的是训练出能够帮助人们解决需要现实世界互动问题的模型。文生视频模型Sora,可以生成一分钟长的视频,同时保持视觉质量并遵循用户的提示。Sora还能够生成复杂的场景,包含多个角色,特定类型的运动以及精确的主题和背景细节。模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中是如何存在的。该模型对语言有深刻的理解,使其能够准确地解释提示,并产生令人信服的人物来表达充满活力的情绪。Sora还可以在一个单独生成的视频中创建多个镜头,以精确地保持人物和视觉风格。下面我们通过几个官网的文生视频来感受下Sora的强大!

提示词:一个时髦的女人走在东京大街上,街上充满了温暖的霓虹灯和生动的城市标志。她身穿黑色皮夹克,红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着黑色墨镜,涂着红色口红。她在马路上自信而随意的行走着。街道潮湿且反光,形成了彩色斑斓的镜面效果。许多行人走来走去。

提示词:几头巨大的长毛猛犸象在雪地的草地上走来走去,它们的长毛茸茸的皮毛在风中轻轻地飘动,在远处覆盖着雪地和雪山,午后的光线、细密的云层和高高的阳光在远处创造出温暖的光芒,低镜头的视野令人惊叹,用美丽的摄影捕捉到大型毛茸茸的哺乳动物。

提示词:一个20多岁的年轻人正坐在天空中一片乌云上看书。

通过以上三段视频,确实让我们领略到了科技带来的震撼!! 

不过,OpenAI官网表示目前该模型还有很多弱点。它可能难以精确模拟复杂场景的物理特性,也可能无法理解因果的具体实例。例如,一个人可能会从一块饼干上咬一口,但在此之后,这些饼干可能没有咬痕。该模型还可能混淆提示符的空间细节,例如,左右混淆,并可能难以精确描述随着时间推移而发生的事件,如跟踪特定的相机轨迹。

提示词:篮球通过圈然后爆炸。

弱点:物理建模不准确和不自然物体”变形”。

提示词:考古学家在沙漠中发现了一个普通的塑料椅子,非常小心地挖掘和除尘。

弱点:SORA不能将椅子建模为一个僵硬的物体,导致不准确的物理交互。

安全性

官网表示,将在将 Sora 推出到 OpenAI 产品之前采取几项重要的安全措施。他们正在与红队人员合作,这些人是在误导信息、仇恨内容和偏见等领域的专家,他们将对模型进行对抗性测试。 

此外,还正在构建工具来帮助检测误导性内容,比如一种检测分类器,可以判断视频是否由 Sora 生成。如果将模型部署到 OpenAI 产品中,计划在将来包含 C2PA 元数据。除了正在开发新技术以准备部署外,OpenAI还在利用为使用 DALL·E 3 的产品构建现有安全方法,这些方法也适用于Sora。

例如,一旦进入 OpenAI 产品,文本分类器将检查并拒绝违反我们使用政策的文本输入提示,比如那些要求极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的提示。OpenAI还开发了强大的图像分类器,用于审查生成的每个视频的帧,以确保其符合使用政策,然后再向用户展示。 

OpenAI还表示将与全球的政策制定者、教育工作者和艺术家进行交流,了解他们的关注点,并确定这项新技术的积极应用案例。尽管他们进行了广泛的研究和测试,但无法预测人们将如何使用他们的技术,以及人们将如何滥用它。

这就是为什么OpenAI相信从实际使用中学习是创建和释放随着时间推移越来越安全的 AI 系统的关键组成部分。

研究

Sora 是一种扩散模型,通过从一个看起来像静态噪音的视频开始,并逐步消除噪音来生成视频,经过许多步骤的转换。

Sora 能够一次性生成整个视频,或者延长生成的视频以使其更长。通过给予模型对一次性许多帧的远见,我们解决了一个挑战性问题,即确保主题即使暂时离开视野,也保持不变。

与 GPT 模型类似,Sora 使用了一个变压器架构,实现了卓越的扩展性能。

我们将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于 GPT 中的一个令牌。通过统一我们表示数据的方式,我们可以训练扩散变压器处理比以前更广泛的视觉数据,跨越不同的持续时间、分辨率和宽高比。

Sora 建立在 DALL·E 和 GPT 模型的过去研究基础上。它使用了来自 DALL·E 3 的重新标题技术,这涉及为视觉训练数据生成高度描述性的标题。因此,模型能够更忠实地遵循用户在生成的视频中的文本指令。

除了能够仅从文本指令中生成视频外,该模型还能够获取现有静止图像,并从中生成视频,以准确地以及对细微细节的关注来为图像的内容添加动画效果。该模型还可以获取现有视频并延长它或填补缺失的帧。详情请参阅我们的技术报告。

Sora 作为能够理解和模拟现实世界的模型的基础,我们认为这是实现人工智能通用性的一个重要里程碑。

原文始发于微信公众号(Java浩窍门):Sora,OpenAI的又一枚重磅炸弹!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/244510.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!