兄弟们 这个牛P了
2800 tokens/s 啊😂
全球最快推理速度模型 不要眨眼↓
ChatDLM:全球首个扩散语言模型 (DLM) 即将开源
ChatDLM深度融合了 Block Diffusion 和 Mixture-of-Experts (MoE) 架构,实现了全球最快的推理速度。
同时支持131,072 tokens的超长上下文
它的工作原理是:将输入分成许多小块,同时用不同“专家”模块处理,再智能整合,既快又准。
主要功能有哪些?
- 回答速度非常快,能让聊天更自然流畅。
- 可以让用户“指定”输出的风格、长度、语气等细节。
- 可以只修改一段话里的某个部分,而不用重新生成全部内容。
- 能同时应对多个要求,比如要它生成一个有多项要求的答案。
- 翻译能力很强,可以在多种语言之间准确转换。
- 用的算力资源少,使用成本低。