browser-use 团队开源了一个叫 video-use 的 Claude Code 技能,让你对着摄像头录完素材,跟 Claude Code 聊两句,就能拿到剪好的成品视频。
听起来像个噱头,但它解决的问题很实际:你录了一堆素材,里面全是“嗯”“呃”和重录的片段,传统流程是打开剪辑软件一刀一刀切。video-use 的做法是你把素材丢进文件夹,告诉 Claude:“把这些剪成一个发布视频”,它会自动裁掉口头语和空白段、调色、加字幕、甚至用 Manim 或 Remotion 生成动画叠加层,最后输出 final.mp4。
技术上有个巧妙的地方:大模型从头到尾不“看”视频。它读的是 ElevenLabs 转写出来的逐词时间戳文本,整个素材压缩成大约 12KB 的文本文件。只有在需要做判断的节点,比如不确定某个停顿该不该切,才会调用一张时间轴合成图来辅助决策。按项目作者的算法,直接把帧喂给模型要烧掉 4500 万 token,而这套方案只需要一份文本加几张图。思路跟 browser-use 做网页代理一样,给模型结构化的 DOM 而不是截图。
渲染完还有一轮自检:在每个剪切点上重新生成时间轴视图,检查画面跳变、音频爆音、字幕遮挡,通过了才给你看预览。最多自动修三轮。
项目完全开源免费,装好 ffmpeg 和 Python 依赖后把仓库软链接到 Claude Code 的技能目录就能用,不过转写部分依赖 ElevenLabs API,需要自己配 key。对于经常录屏、录教程、拍 vlog 但又嫌剪辑软件太重的人来说,可以尝试下。
项目地址:https://t.co/xbF8Ay1OqY
点击图片查看原图