西北工业大学开源了一个语音理解模型：OSUM，支持8种语音理解任务，从ASR到情感识别，以及语音到文本的深度理解支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC)

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

3894 位用户此时在线

24小时点击排行 Top 10：

比春晚好看！现阶段中国喜剧界的主要矛盾：蓬勃发展的民间幽默产出与春晚喜剧节目的乏善可陈。

打假测评销量前十的不锈钢保鲜盒，全部材质造假，都去看下家里的保鲜盒是不是合规吧。

有人做了两个冬奥会美国国籍的华人明星运动员。谷爱凌和Alysa Liu的对比。

李连杰女儿采访李连杰，有点意思。

脑力工作者最好的休息方式，收藏！

有人问AOC：中国若动手，美国会不会出兵保台湾 AOC：。。。

#每日首赢米兰冬奥会奖牌严重通缩，习近平和中共忍不住了，派央视肉喇叭出面，重新定义：“什么是赢”😆🤣

稻盛和夫最经典演讲：人为什么活着？

"The United States cannot possibly deter China without a secure, free, and prosperous Europe."

苹果中国区下架 Web3通讯MOSAVI，援引条款罕见提及“舆论属性或社会动员能力” 2月13日，据Mosavi开发者收到的通知显示，苹果公司已应中国国家网信办要求，从中国区 App Store 移除了去中心化通讯应用 MOSAVI。 MOSAVI 是一款基于 Nostr

密西西比州，Jackson。被美国人收养的华人女孩，在街头散步，一个上了年纪的白人女性看到她之后就拍照报警了。视频翻译：好吧，2026 年了，要是谁还跟我说“种族歧视已经不存在了”，那我真的没法认同，因为我刚刚就亲身经历了一次被种族定性对待的事情。

身份证照片不要直接发，教您一招，保护好您的个人信息。

目前看见不少Alysa Liu的新闻、文章和照片和中国社交网络上被和谐。但也不是所有。 Alysa Liu此前是中国队的招募对象之一，但被她父亲Arthur Liu拒绝，后者系89事件中被迫害流亡。她在本届冬奥会上与美国队其它选手一起获得花样滑冰金牌。

老高和小茉：神仙伴侣💏还是同床异梦的半路夫妻？😢😢 老高的无奈：我就是备胎、这就是我的命，我不配～～小茉就是掩饰、解释：你也不错、是他说的～～恩爱夫妻是不会这么做的～～😢 😂

经典回顾之老共基层官员说现在的刁民太多了

黄雀行动钟的故事2：三合会（黑帮）在“黄雀行动”中，三合会（黑帮）的参与是整场行动中最具传奇色彩也最黑暗的部分。这不仅是出于“大义”，更是一场高风险、高收益的地下博弈。一、三合会（黑帮）的表现与动机当时参与的主力包括14K、新义安以及一些活跃在港粤边境的走私团伙。 1、技术垄断：

Watch video

2月9日，甘肃甘南州。数十位农民工死死抱着老板的大腿讨薪。

怪不得江泽民如此狠毒，在此问题上任何一个中共党魁都没有可比性，原来是陈云旨意。

澳大利亚🇦🇺逮捕中国间谍！ "只想过简单日子"的面包房员工，竟是中国间谍

为了对外宣传的需要，一张便条就可从银行取走大笔现金。有个胆大的中国人看到有机可乘，也尝试捞些钱进腰包。这个人叫王倬，是外贸部的一名科员。一九六○年三月，他伪造了一张假冒周恩来批示的便条，从中国人民银行总行取走了二十万元现金。便条写道：“总理：主席办公室来电话告称：今晚九时西藏活佛

“觉醒仪式” 2月10日，重庆秀山一中一名高中学生发布跑操视频。清晨天色未明，学生们已陆续起床，在操场集合。空气里弥漫着浓重的雾气和尘埃。昏黄的灯光穿透迷雾，就像地狱一样。

大力整治宣扬不婚不育……

范冰冰，生日快乐🎂🎉 远亲王托猫神问候你：祝你生日快乐🎂🎉

主持人：美国最大威胁是什么？前🇺🇸CIA中情局局长戴维："只有一个答案，中国"

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

3

2

1

西北工业大学开源了一个语音理解模型：OSUM，支持8种语音理解任务，从ASR到情感识别，以及语音到文本的深度理解
支持语音识别(ASR)
带时间戳的语音识别(SRWT)
声音事件检测(VED)
语音情感识别(SER)
说话风格识别(SSR)
说话者性别分类(SGC)
说话者年龄预测(SAP)
语音到文本对话(STTC)
时政
( twitter.com )

11个月前由 AIGCLINK 提交

西北工业大学开源了一个语音理解模型：OSUM，支持8种语音理解任务，从ASR到情感识别，以及语音到文本的深度理解

支持语音识别(ASR)
带时间戳的语音识别(SRWT)
声音事件检测(VED)
语音情感识别(SER)
说话风格识别(SSR)
说话者性别分类(SGC)
说话者年龄预测(SAP)
语音到文本对话(STTC)

它结合了Whisper和Qwen2，采用ASR+X训练策略，支持多任务同时训练优化

#语音理解模型 #语音识别 #OSUM

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
400
下一页

1

2

1

1

Google提出AudioPaLM：一个可以说话和听的大型语言模型。

论文页面：

我们介绍了AudioPaLM，这是一个用于语音理解和生成的大型语言模型。AudioPaLM将基于文…
IT技术
( twitter.com)

2年前 • 宝玉 0 评论

2

2

1

1

#AI开源项目推荐#：AudioGPT
这是一个借助大语言模型（LLM）处理音频的工具，可以：
- 生成音乐 🎶
- 背景音效 🎵
- 音频生成字幕 🎤
- 文字生成音频 🗣️
- 文字生成音频并模拟声音 📢
- 根据图片生成音频…
推特中文圈
( twitter.com)

2年前 • 宝玉 0 评论

3

2

1

1

来自北京大学和微软研究院的一篇论文，MusicAgent是一款基于大语言模型（LLM）为音乐创作打造的 AI 智能体，可以理解成音乐界的 AI Copilot 。

它借助了 LLM 的任务规划能力、工具选择能力和…
IT技术
( twitter.com)

2年前 • 宝玉 0 评论

4

2

1

1

Google刚刚发布了开源大语言模型 Gemma，这是对标 LLAMA 2 的开源大语言模型。
Gemma是一系列基于创建Gemini模型所使用的相同技术与研究的、在其领域内技术领先的轻量级开源模型。…
IT技术
( twitter.com)

2年前 • 宝玉 0 评论

5

2

1

1

发现了个好东西，这个老哥开源了一门课程《从头开始构建大型语言模型》，这门课程将一步步地指导你创建自己的LLM。
每个阶段都有清晰的文本、图表和实例来解释相关概念。
课程内容包括： 1. 从基础理解注意力机制
2. 构建并预训练一个类似于GPT的模型
3. 学习如何加载预训练的权重
4.…
IT技术
( twitter.com)

2年前 • 歸藏 0 评论

6

2

1

1

大语言模型微调之道1——介绍

#大语言模型微调之道

欢迎来到由Sharon Zhou主讲的《大语言模型微调之道》课程。这门课程将教你如何在自己的数据上进一步训练开源LLM。

虽然你可能已经知道如何提示一个大语言模型，但这门课程会深入讲解另一个重要工具：微调。…
IT技术
( twitter.com)

2年前 • 宝玉 • 下载视频 0 评论

00:02:59

7

2

1

1

【乔布斯全新采访曝光，然而…】这个AI播客背后的公司名为Play.ht。他们主营业务为 AI 文本转换语音生成器，今年9月，发布了第一个语音模型Peregrine，据称，其模型原理与大型语言模型(如 DALE 和 GPT-2 )相近，采用自监督方式训练AI能模仿特定某人的语气和情绪。
大陆资讯
( www.qbitai.com)

3年前 • 猪八戒 0 评论

8

3

2

2

不少学生涌入西北工业大学B站账号，要求学校给一个合理的解释，披露该事件更多细节。
时政
( twitter.com)

1年前 • 李老师不是你老师 0 评论

9

2

1

1

一个开源的多模态 LLM Unified-IO 2。
比较离谱的是它可以实现语音理解和动作理解还有图像标记这种任务，还可以理解空间关系。真正的 All in one 。
甚至还可以驱动机器人做对应的操作。
项目简介：
Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。…
IT技术
( twitter.com)

2年前 • 歸藏 0 评论

10

2

1

1

#AI开源项目推荐#：PKU-YuanGroup/ChatLaw

来自北京大学ChatExcel课题组开源的中文法律大模型ChatLaw，极大的解决了GPT的幻觉问题。

这个系列有三个版本：
- ChatLaw-13B：这是基…
IT技术
( twitter.com)

2年前 • 宝玉 0 评论

11

3

2

2

阿里巴巴起诉前核心员工周畅
指其在离职后违反了竞业协议，加入字节跳动并从事相关 AI 大模型工作。
周畅 2017 年博士毕业于北京大学计算机软件与理论专业，随后加入阿里巴巴，花名“钟煌”，是阿里通义千问大模型的技术负责人，曾和团队推出一系列语言模型、多模态模型。
时政
( twitter.com)

1年前 • 小互 0 评论

12

2

1

1

# AI 开源模型分享
最强语音识别和说话人分离模型
Reverb 推出最强开源语音识别 (ASR) 和说话人分离 (Diarization) 模型, 评测结果击败 OpenAI 推出的 Whisper large-v3！
# Reverb ASR 模型
- 使用 20 万小时的人工转录数据训练
- 达到了最新的词错误率 (WER) 水平
- 支持可定制的逐字转录
#
时政
( twitter.com)

1年前 • meng shao 0 评论

13

2

1

1

这两天最令人兴奋的概念可能是Karpathy大神提出了LLM OS（大语言模型操作系统）了：
模型即芯片，与人和环境互动即输入，完全嵌入工作流程。
在此基础上提出的agent代理驱动组织（ADO，--
创业者John Rush
时政
( twitter.com)

2年前 • rick awsb ($people, $people) 0 评论

14

2

1

1

我大鹅厂也开始开源了，希望别烂尾。
腾讯正式公布，旗下混元文生图大模型已完成升级，并对外开源。
此次升级的模型采用了与Sora相同的DiT架构，不仅能够支持文生图，也能作为视频等多模态视觉生成的基础。
这是业界首个中文原生的DiT架构文生图开源模型，支持中英双语输入及理解，15亿参数。
时政
( twitter.com)

1年前 • Leo Xiang 0 评论

15

2

1

1

#工程师工具发现一个可以免费跑开源大语言模型的在线地址「FastChat」，支持 Vicuna、Koala、Dolly、ChatGLM、Alpaca、LLaMA，使用下来有一种 GPT3.5 的水平，开源很大程度促进了国产 AI…
推特中文圈
( twitter.com)

2年前 • Tw93 0 评论

16

2

1

1

#工程师工具发现一个很适合小白本地玩语言模型的开源 Mac 工具「LLamaChat」，可下载 LLama、Alpaca 和 GPT4All 模型后直接进行聊天，省去了麻烦的配置过程，很开箱即用，有兴趣的同学可以玩玩看。
🤖…
推特中文圈
( twitter.com)

2年前 • Tw93 0 评论

17

2

1

1

李沐的语音LLM，在文本大模型基础上加入语音输入输出，开源训练方法与权重。需要10-12 GB VRAM
没有这种模型之前，AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成，响应容易慢。而且大段文本不一定适合念出来，念出来也不一定符合“情感”
时政
( twitter.com)

6个月前 • Gantrol 0 评论

18

2

1

1

DeepSeek 开始搞多模态了。
开源了一个多模态理解和生成一体的模型 Janus，既可以理解图片内容又可以生成图片。
Janus的核心创新是将视觉编码分为两个独立的部分:一个用于多模态理解,一个用于图像生成。
IT技术
( twitter.com)

1年前 • 歸藏(guizang.ai) 0 评论

19

2

1

1

部署在树莓派 (Raspberry Pi)上 GPT 语音助手，使用开源的大型语言模型（LLM）响应请求，转给爱折腾的小伙伴。
IT技术
( github.com)

1年前 • Geek 0 评论

20

2

1

1

Meta 昨天推出了 Voicebox，一个全能语音生成模型，这是一个支持六种语言和多种语音处理功能的模型，功能包括

基于上下文的文本转语音合成
跨语言风格转换
跨语言风格转换
多样化的语音采样

详细的功能介绍和原理在下面🧵：
IT技术
( twitter.com)

2年前 • 歸藏 • 下载视频 0 评论

00:02:43

21

2

1

1

发现了一个宝藏资源！
这位大神开源了一门课程《从头开始构建大型语言模型》，课程将逐步带你创建自己的LLM。
每个章节都配有详尽的文字说明、图表和实例来讲解关键概念。
课程内容包含：
基础知识：深入理解注意力机制
模型构建：创建并预训练类似于GPT的模型
权重加载：掌握如何加载预训练权重
时政
( twitter.com)

1年前 • Y11 0 评论

22

2

1

1

关于大语言模型的理解力的问题。
大陆资讯

2年前 • 猪八戒 0 评论

23

2

1

1

百度创始人李彦宏：开源模型是智商税，永远应该选择闭源模型，文心一言等闭源模型，比开源模型更强大，推理成本更低
百度从当年的互联网巨头，到今天市值谷歌的零头，还不及腾讯音乐市值高，整个就一个假药、骗子医院、快递大卖场，李彦宏功不可没👍
时政
( twitter.com)

18天前 • 猫神 • 下载视频 0 评论

00:00:17

24

2

1

1

DeepSeek 发布了一个新型 OCR文档理解模型：DeepSeek-OCR
它不仅解析图像文档达到了一流水平
还探索出了一个大胆的想法👇🏻
大语言模型（比如 GPT）在处理长文章时，消耗的计算量会爆炸性增长。
但如果把文字“画成图片”，模型只需要很少的“视觉 token”就能理解同样内容。
时政
( twitter.com)

3个月前 • 小互 0 评论

1
2
3
4
5
6
...
400
下一页

0.1194 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特