玉伯之前发了一条推文,说问了很多牛人下一个大模型会有什么惊艳发布,其中一个预测是:可实时生成的视频。
其实我当时没太理解什么是实时生成视频,直到我看了 @PixVerse_ R1 的演示视频,实际体验了一把,才算是理解了什么是实时生成视频,以及它带来的想象空间有多大。
PixVerse R1 可以说是全球首个实时生成模型了,是 PixVerse 自研的大模型。
如果你看了这个视频演示,你会发现它和传统的 AI 视频生成完全不是一回事。演示里是一个"魔法水族箱",金鱼在水草间游动,你打一句话,画面立刻响应。输入"一只小龙虾",红色的鳌虾就趴在石子上了;打"几只蓝色小水母",半透明的水母就漂出来了;说"一条鲨鱼",鲨鱼就从左边游进画面。不是生成完再播放,是你说一句、它变一帧,像在跟视频对话。
更厉害的是复杂交互。你打"一只手伸进去抓鱼",真的有只手从上方探入水中捞鱼;说"用渔网捞",绿色的捞网就出现把金鱼网住了。场景也能随便加——"出现一艘沉船",海盗船模型就沉在鱼缸里了;"掉进去一个棒棒糖",红白旋涡的巨型棒棒糖就躺在石子上,超现实。最离谱的是你还能控制镜头:打"镜头拉远,一个孩子正在看水族箱",视角瞬间从鱼缸内部切到外面,一个小男孩背对着你站在水族箱前。
在实际体验的时候,我也发现一个问题:人的反应速度跟不上视频生成的速度。AI 生成太快了,我写提示词的手速跟不上。但这应该不是大问题,完全可以语音指挥,让 AI 来实时写提示词。
实时生成这个方向打开的想象空间太大了。
直播?想象一下,主播说“今天心情好,给我换个海边背景”,下一秒人就站在马尔代夫的沙滩上了。弹幕刷“下雨”,雨就下了;刷“放烟花”,天上就炸开了。观众不再是观众,是共创者。
游戏?你对着屏幕说“我要进一个赛博朋克风格的酒吧”,酒吧就生成出来了,霓虹灯、全息广告、调酒机器人,全是根据你那句话现编的。不需要提前建模,每个玩家看到的世界都不一样。
教育?老师讲二战诺曼底登陆,不用再放 PPT 了,直接说“给我生成一段盟军抢滩的画面”,学生眼前就是士兵跳下登陆艇、冲向海滩的场景。讲到哪,演到哪。
互动影视?男女主角站在分岔路口,观众投票往左走还是往右走,视频实时往那个方向演下去。每个人看到的结局都可能不一样。
这模糊了视频和游戏、直播、互动内容的边界。视频不再是“做好了给你看”的东西,而是“你说了算”的东西。
@PixVerse_ R1 作为第一个吃螃蟹的出现了,接下来看谁跟上。
如果你能实时控制视频里的一切,你第一个想玩什么?
Your browser does not support the video tag.