微软开源了语音AI模型:VibeVoice,目前已27K的Star了
主要包括3个模型:
1、VibeVoice-ASR-7B:文本转语音 (TTS) 模型。
VibeVoice-ASR是一个统一的语音转文本模型,可一次性处理60分钟的长音频,生成包含“谁(说话人)”、“何时(时间戳)”和“什么(内容)”的结构化转录,并支持自定义热词。
2、VibeVoice-TTS-1.5B:自动语音识别 (ASR) 模型。
90分钟长篇语音生成、支持在一次对话中最多4个不同的说话人、生成富有表现力听起来自然的语音
3、VibeVoice-Realtime-0.5B:实时文本转语音 (TTS) 模型。
实时TTS(延迟约300毫秒)、可长篇语音生成(约10分钟)
有人还用VibeVoice-ASR做了一个语音输入法:Vibing。
亲测识别速度和准确率还行,macOS和Windows可用。