Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”),于2024年2月15日(美国当地时间)正式对外发布。
行业背景
2022年底,OpenAI正式推出
ChatGPT,这款由人工智能技术驱动的
自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT是OpenAI迈出的第一步,这款让所有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后,OpenAI的开发重点逐步过渡到图像的生成,
Dall-E模型在生成图像方面也获得了重大突破。
视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域,由于扩散算法的成熟,这些领域受益匪浅。然而,与图像生成相比,3D资产和视频生成在数据和算法方面面临的难点更多。
尽管如此,考虑到大型语言模型(
LLM)对人工智能各领域的加速作用以及已经出现的优秀开源模型,2024年该行业有望实现更大的发展。在2023年末至2024年初,Pika、
HeyGen等人工智能生成的视频应用逐渐受到关注,这验证了多模态技术的持续进步与成熟。但与此同时,民主倡导者和人工智能研究人员警告说,这些工具已经被用来欺骗和欺骗民众。
名字由来
Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。
发展历程
模型发展
正式发布
美国当地时间2024年2月15日,OpenAI正式发布文生视频模型Sora,并发布了48个文生视频案例和技术报告,正式入局视频生成领域。Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。
2024年2月21日,博主宝玉xp分享称,OpenAI的Tiktok账号发布了不少Sora生成的视频,还配上了背景音乐。3月,Sora核心团队三位负责人露面接受了专访。他们在采访中透露,Sora还处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。3月26日,每经AI快讯,OpenAI介绍该公司与艺术家和电影制片人的早期合作情况,展示Sora如何帮助人们把想法转变为现实。4月4日消息,OpenAI 近日在其 YouTube 官方频道发布视频,介绍了由 August Kamp 参与制作,完全由文本转视频 AI 模型 Sora 生成的首支音乐短片《Worldweight》。12月10日,OpenAI正式向用户开放人工智能视频生成模型Sora。12月12日,OpenAI证实其聊天机器人ChatGPT正经历全球范围的宕机,ChatGPT、Sora及API仍处于瘫痪状态。该公司更新事故报告称,已查明宕机原因,正努力以最快速度恢复正常服务,并对宕机表示歉意。12月18日,文生视频大模型Sora入选“
2024全球十大工程成就”。
功能特色
优点
Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频(其他AI视频工具还在突破几秒内的连贯性),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景”。
Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景。
Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善。
可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡。
缺点
Sora也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解
因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件。
例如,在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中,狼的数量会变化,一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。
OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。
技术特点
多帧预测生成
Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。
特殊架构
Sora采用与GPT模型相似的Transformer架构,OpenAI用Transformer结构替代
Diffusion模型中常用的U-Net结构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题,扩散模型采用更可扩展的
状态空间模型(
SSM)主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高
分辨率图像。
重述提示词
Sora借鉴DALL-E 3的“重述提示词技术”,为视觉训练数据生成高度描述性的标注,这使得模型能够更忠实地遵循用户的文本指令,生成符合用户需求的视频内容,同时也提高了模型的灵活性和可控性。
数据表示
OpenAI将视频和图像表示为
Patch,类似于GPT中的
token,这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比,有助于模型学习到更丰富的视觉特征,提高生成视频的质量和多样性。
原生规模训练
Sora采用“原生规模训练”,过往的图像和视频生成通常会将视频调整为标准大小,但这样会失去视频的原始长宽比和细节,而原生规模的训练方法可以带来更好的效果。Sora可以对各种尺寸和纵横比的视频进行采样,允许直接为不同尺寸的设备创建内容,并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比,Sora可以生成更完整、更美观的视频。
故事板模版
Sora还包含一个名为故事板(Storyboard)的选项,允许用户通过它详细描述希望视频在不同时间点发生的内容,从而更好地指导一系列片段的生成,用户可以浏览其他人创作的视频集锦。
模型研发
主要人员
Sora核心团队有15人,研究团队呈年轻化,主要负责人在2023年博士毕业,团队中还包含“00后”新生代力量以及艺术生。
此外,Troy Luhman、Clarence Wing Yin Ng等人也参与了Sora相关研究。而Sora团队也正在持续扩张,David Schnurr发布招聘广告寻找有大型视频基础设施经验的人员。
研发轶事
Sora团队共同领导者William (Bill) Peebles和
谢赛宁合著的论文《Scalable diffusion models with transformers》被认为是Sora背后的重要技术基础之一(但谢赛宁否认参与Sora研发团队,仅称其合著论文起到一些作用),不过这项研究在发表的时候并不顺利。Sora发布时,图灵奖获得者、Meta首席科学家Yann LeCun表示该研究论文因为“缺乏创新”,先被
CVPR 2023拒绝,后来被
ICCV 2023接收。
谢赛宁在公开回应时,称William (Bill) Peebles告诉其他们“每天基本不睡觉,高强度工作了一年”。
专业测试
安全性
OpenAI已将Sora交由Team Red(网络安全演习中扮演敌人或竞争对手角色的群体)测试Sora,评估潜在的危害或风险。此外,OpenAI正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的,其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。
创意性
OpenAI邀请了专业创意人士测试Sora,用于反馈其在专业环境中的实用性,OpenAI计划根据这些反馈意见改进Sora,确保它能有效满足用户的需求。
模型套餐
Sora目前纳入两个套餐,每月订阅收费20美元的Plus可生成视频分辨率高达720p,最长5 秒,每月收费200美元的Pro生成视频分辨率高达1080p、最长20秒,可同时生成五个视频。
社会影响
价值意义
Sora对于需要制作视频的艺术家、电影制片人或学生来说,都带来了无限可能。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃,也被认为是实现
通用人工智能(AGI)的重要里程碑,通过不断深入研究和发展Sora等先进模型,有望在未来实现更加智能、高效和多样化的视频生成与处理技术。Sora的推出让AIGC(生成式人工智能)再度成为行业焦点,能否彻底“颠覆”行业也成为舆论议论的中心。
产业格局
Sora发布后,
OpenAI的估值迅速上涨(有望超过800亿美元,2023年ChatGPT发布不久时其估值约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨。与此同时,受Sora发布的影响,美国图片供应商Shutterstock的股价大跌。
在中国,龙年开市第一天,Sora相关概念全线“爆发”,会畅通讯、当虹科技、
万兴科技、易点天下、因赛集团、
东方国信、
数码视讯、
华扬联众、国脉文化等股票均大幅上涨,多家公司回应称,将根据自身业务特点,在文生视频技术落地、Sora应用等方面寻找突破入口。
浙商证券预测,Sora及同类产品将参与到改变信息生产和分发两大环节的进程中,
PGC(专业生产内容)将广泛采用AI工具辅助生产,
UGC(
用户生成内容)将借助AI工具逐步替代PGC。此间,AI生成视频工具的商业化将提速。
Sora可生成一段长达60秒的视频,远超市面同类AI产品视频生成时长,60秒的视频时长,已经超过
抖音等短视频平台的平均视频时长,Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。
职业取代
截至2024年2月,已有一些视觉艺术家、设计师和电影制作人以及OpenAI员工获得了Sora访问权限,他们也已开始在社交平台不断晒出使用Sora生成的新作品,为人们展示AI生成视频的创意可能。许多网友称“不少人要丢工作了”,甚至有人开始“悼念”一整个素材行业。
各界评价
主要竞品
参考资料:
相较于其他模型,Sora的优势主要是三方面:
社会争议
虚假信息
Sora的发布引发了关于虚假信息传播的争议。其强大的图像视频生成能力达到了以假乱真的程度,这不仅改变了人们“眼见为实”的传统观念,还可能带来一系列社会问题,如视频证据真实性和有效性的验证难题。在Sora问世前已有多起利用AI伪造视频进行诈骗的案例,显示了AI生成视频可能被滥用于非法目的的风险。Sora的普及可能会进一步降低制作高质量虚假视频的门槛,加剧虚假信息的传播。尽管互联网平台已有针对特定类型虚假信息的检测机制,但对于复杂难辨的信息仍需加强深度分析和及时阻断。随着AI生成内容的激增,网络上的合成内容将大量存在,这要求不仅在技术上持续改进,还需建立更全面的治理体系来有效应对虚假信息的挑战。
版权问题
Sora可能引发侵权争议。一方面,Sora生成的视频版权是否受到保护尚不明确,这可能导致使用这些视频的主体面临侵权索赔和版权保护追溯的风险。另一方面,Sora在训练过程中使用了相关素材,即使只是用这些素材进行训练,也可能存在潜在的侵权风险。
门槛问题
一直以来,技术做的事情就是“允许个体作用于世界”,技术媒介、人工智能的出现,是几何级降低“个体作用于世界”的门槛,几何级提升它的可能性。Sora让视频创作随手可得、人人可行,极大实现了内容和创作主体的多样化,这其实是技术媒介时代平权主义趋势的表征,可以想象其普及之后媒介平台上的丰富性。
不过,与其说这是打开了传统影视业的闸门,不如说这是抬高了影视业的水准,使后者变为更小众、更精英化的行业。想想看,什么是平权主义且大众化的Sora没有的?首先是极高的原创性,然后是短视频不具备的故事深度与情感共鸣,从历史感、故事深度和人物塑造中,建立与受众深层的情感连接,这是Sora为影视行业画出的新界限。
模型事件
2024年当地时间11月26日,一些据称参与了Sora测试的艺术家泄露了该模型的访问权限(API),以抗议OpenAI对他们的压榨行为。
目前OpenAI并没有公开确认所谓的Sora泄露是否属实。但是OpenAI强调,参与其“研究预览”是“自愿的,没有义务提供反馈或使用该工具”。
美东时间2024年12月26日上午11点,OpenAI开始发生大规模宕机,Sora无法正常访问,出现高错误率。11点18分确认,问题出自“上游供应商”,在监控情况。北京时间12月27日上午8:20,OpenAI更新说明称,API现已运行,ChatGPT正在恢复。早些时候OpenAI表示,Sora现已全面运行。