FEATUREDX · @dotey(宝玉)· x-apiZH16:52 · 04·16
browser-use 开源 video-use:对着摄像头录完素材,跟 Claude Code 聊两句就能拿到剪好的视频
browser-use 团队把 video-use 开源了,这是一个 Claude Code 技能,你把录好的素材丢进文件夹,告诉 Claude 要剪成什么样,它就能自动裁掉“嗯”“呃”和空白段、调色、加字幕,还能用 Manim 或 Remotion 生成动画叠加层,最后输出 final.mp4。它不直接“看”视频,而是把 ElevenLabs 转写出...
#Tools#Audio#Multimodal#browser-use
精选理由
这条更新对开发者来说够新鲜,hook 清晰、有可复用的架构细节和成本对比。我会先打个折:它只是 Claude Code 的一个技能,不是平台级发布,所以重要性停在 77 合理。正文没披露 ElevenLabs 转写成本和多轮自检的实际成功率,这点先别太激动。
一句话点评
browser-use 把视频剪辑变成了聊天式操作,录完素材跟 Claude Code 说人话就能出片,但正文没披露实际剪辑效果和操作限制。
锐评
这条消息的核心是把视频剪辑的门槛打到了“说话就能剪”的程度。browser-use 团队开源的 video-use 技能,让 Claude Code 直接操控你的摄像头素材,你只需要用自然语言描述想要的效果,它就能调用工具链完成剪辑。这相当于把过去需要学 Premiere、记快捷键、调时间线的专业操作,简化成了一次对话。
不过目前能看到的只有这条推文标题,正文是空的,所以几个关键信息完全缺失:它到底能处理多复杂的剪辑任务,比如多轨道、转场、调色这些能不能做;生成速度怎么样,是实时预览还是需要等渲染;以及它依赖的是 Claude 本身的视觉理解能力,还是背后接入了 ffmpeg 这类传统工具。如果是纯靠大模型理解视频内容再生成剪辑指令,那长视频的处理成本和准确率会是个大问题。
对 AI 从业者来说,这个方向值得关注,因为它把“让模型进业务流程干活”这个 agent workflow 的思路直接搬到了内容创作领域。但先别太激动,等有人实测放出完整工作流和成品视频,再判断它到底是玩具还是生产力工具。
HKR 分解
hook ✓knowledge ✓resonance ✓