洋彼岸,Sora的到来,似乎让AI有了睁眼看世界的可能。在官方表述中,Sora被称为“世界模拟器”:它理解真实的规则,并在此基础上生成“世界”。
如果说从前还是一道铜墙铁壁,那么现在,虚拟与真实可能仅一线之隔。大家都不想做创建虚构的玩具,而是想成为生成世界的“造梦机”。Sora之后,它的挑战者们前赴后继。
6月,视频生成大模型迎来又一轮新品爆发,生成式AI赛道像是“过年了”。快手可灵、Luma AI以及Runway迭代更新后的Gen-3 Alpha等现象级爆款不断涌现。其中,讨论度最高的是快手自研视频生成大模型“可灵”,全面对标Sora。
《每日经济新闻》记者将OpenAI官方公布的5条Sora视频提示词投喂给可灵,对其文生视频的能力进行测试,同时从动态、视效、细节、场景等多维度表现进行结果比对和关联。
每经记者从五大场景全面评测Sora和快手可灵
测试和观察后发现,虽然在部分维度Sora仍然领先,且可灵由于尚处开放初期,上线功能相对单一,生成存在一定限制,但几乎可以判断,国产视频生成大模型已经上升到了一个新的高度。
国金证券互联网传媒首席分析师陈泽敏在接受记者采访时表示,抛开技术,快手“可灵”已经实现一部分绝对真实世界观的数据支持,AI对不同世界观的快速理解以及在视频上的反应,“这是我认为不可思议的”。
可灵,灵吗?
Sora之后,国内视频生成大模型不断推出。
3月底,字节旗下Dreamina(即梦)内测视频生成功能;4月底,生数科技首个文生视频模型Vidu发布;5月,腾讯也开源了DiT架构的混元文生图模型。
今年以来,快手先后发布1750亿参数规模的通用大语言模型“快意”和文生图大模型产品“可图”。视频生成大模型可灵则在6月被推出,快手方面称,可灵能够生成大幅度的合理运动,模拟物理世界特性,生成的视频分辨率达1080p,时长最长可达2分钟。图生视频功能后续开放。
《每日经济新闻》记者选取了OpenAI官方公布的5条Sora视频提示词(东京街头的女士、太空人、无人机视角的海岸、3D动画的小怪物、云端读书的年轻人)测试可灵。同时比对生成视频进行效果测试,从“画面呈现”“功能与体验”两大维度下的多个具体表现进行总结。
在画面呈现上:
1、动态效果。可灵的“镜头”普遍为前后向逻辑推进,Sora则更丰富。在“海浪撞击悬崖的无人机视图”一项,Sora画面的聚焦点在提示词中“有灯塔的小岛”,对整个环境进行环视,重点突出。可灵的镜头前后推进,小岛被设置在画面的最远端,没有重点突出小岛。不过,Sora和可灵对海浪的运动轨迹描述都很准确。
2、视觉效果。这一项上,Sora和可灵表现都较为优秀。特别是在“东京街头的女士”视频画面呈现上,无论是对霓虹灯色彩的展示,还是潮湿地面反光的呈现,两个模型的画面光影表达都很准确。
3、细节表现。记者重点关注到二者对人的五官的呈现。Sora的刻画更细致,特别是人在动态场景下,五官没有变形,几乎是相对静态的。可灵在动态场景下,人的五官有所变形,会随着画面镜头的推进、人的动作而扭曲。
但在“3D动画的小怪物”生成上,可灵的细节表现与Sora差别不大,特别是对小怪物蓬松毛发特性的捕捉和呈现上,很精准也很细致。