玉伯之前发了一条推文，说问了很多牛人下一个大模型会有什么惊艳发布，其中一个预测是：可实时生成的视频。其实我当时没太理解什么是实时生成视频，直到我看了 R1 的演示视频，实际体验了一把，才算是理解了什么是实时生成视频，以及它带来的想象空间有多大。PixVerse R1

发布时间: 2026-01-14 13:50:14

1分

数据加载中

玉伯之前发了一条推文，说问了很多牛人下一个大模型会有什么惊艳发布，其中一个预测是：可实时生成的视频。
其实我当时没太理解什么是实时生成视频，直到我看了 R1 的演示视频，实际体验了一把，才算是理解了什么是实时生成视频，以及它带来的想象空间有多大。
PixVerse R1
IT技术
( twitter.com )

玉伯之前发了一条推文，说问了很多牛人下一个大模型会有什么惊艳发布，其中一个预测是：可实时生成的视频。

其实我当时没太理解什么是实时生成视频，直到我看了 @PixVerse_ R1 的演示视频，实际体验了一把，才算是理解了什么是实时生成视频，以及它带来的想象空间有多大。

PixVerse R1 可以说是全球首个实时生成模型了，是 PixVerse 自研的大模型。

如果你看了这个视频演示，你会发现它和传统的 AI 视频生成完全不是一回事。演示里是一个"魔法水族箱"，金鱼在水草间游动，你打一句话，画面立刻响应。输入"一只小龙虾"，红色的鳌虾就趴在石子上了；打"几只蓝色小水母"，半透明的水母就漂出来了；说"一条鲨鱼"，鲨鱼就从左边游进画面。不是生成完再播放，是你说一句、它变一帧，像在跟视频对话。

更厉害的是复杂交互。你打"一只手伸进去抓鱼"，真的有只手从上方探入水中捞鱼；说"用渔网捞"，绿色的捞网就出现把金鱼网住了。场景也能随便加——"出现一艘沉船"，海盗船模型就沉在鱼缸里了；"掉进去一个棒棒糖"，红白旋涡的巨型棒棒糖就躺在石子上，超现实。最离谱的是你还能控制镜头：打"镜头拉远，一个孩子正在看水族箱"，视角瞬间从鱼缸内部切到外面，一个小男孩背对着你站在水族箱前。

在实际体验的时候，我也发现一个问题：人的反应速度跟不上视频生成的速度。AI 生成太快了，我写提示词的手速跟不上。但这应该不是大问题，完全可以语音指挥，让 AI 来实时写提示词。

实时生成这个方向打开的想象空间太大了。

直播？想象一下，主播说“今天心情好，给我换个海边背景”，下一秒人就站在马尔代夫的沙滩上了。弹幕刷“下雨”，雨就下了；刷“放烟花”，天上就炸开了。观众不再是观众，是共创者。

游戏？你对着屏幕说“我要进一个赛博朋克风格的酒吧”，酒吧就生成出来了，霓虹灯、全息广告、调酒机器人，全是根据你那句话现编的。不需要提前建模，每个玩家看到的世界都不一样。

教育？老师讲二战诺曼底登陆，不用再放 PPT 了，直接说“给我生成一段盟军抢滩的画面”，学生眼前就是士兵跳下登陆艇、冲向海滩的场景。讲到哪，演到哪。

互动影视？男女主角站在分岔路口，观众投票往左走还是往右走，视频实时往那个方向演下去。每个人看到的结局都可能不一样。

这模糊了视频和游戏、直播、互动内容的边界。视频不再是“做好了给你看”的东西，而是“你说了算”的东西。

@PixVerse_ R1 作为第一个吃螃蟹的出现了，接下来看谁跟上。

如果你能实时控制视频里的一切，你第一个想玩什么？