字节的类似于 Operator 的操作浏览器的模型UI-TARS,是一款面向图形化用户界面(GUI)的新一代自动化操作模型,能够像人类一样感知界面信息、推理操作步骤并执行交互动作。它将视觉理解、文本处理、操作规划、记忆管理等关键组件深度融合在同一个大模型中,不需要额外的规则或流程定义,就能完成跨平台(桌面、移动端、Web 等)的多步复杂任务。 与传统工具链需要事先制定脚本或预定义工作流不同,UI-TARS 通过大规模真实与合成数据训练,具备完整的感知、推理与决策能力。它不仅能够理解界面中的文本、图标、按钮布局等信息,还能根据实时变化及时调整操作策略。比如,在 PC 端可使用 UI-TARS-desktop 进行本地桌面自动化;在浏览器中,则可配合 Midscene.js 实现端到端的 Web 自动化。
只需要几秒!
创建帐户
已拥有账号并想要登录?
登陆 忘记密码?