site stats
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC)
sign_in_with_google sign_in_with_google

3141 位用户此时在线

24小时点击排行 Top 10:
  1. 本站自动实时分享网络热点
  2. 24小时实时更新
  3. 所有言论不代表本站态度
  4. 欢迎对信息踊跃评论评分
  5. 评分越高,信息越新,排列越靠前