site stats
没想到有人不相信低资源推理的可行性。 用WizardLM-30B参数模型在4090 24 GB 显卡上,使用 GPTQ 4bit量化。这个速度大家满意么。 控制台显示速度:14.11 tokens/s 显存占用:20333Mi…
sign_in_with_google sign_in_with_google

2076 位用户此时在线

24小时点击排行 Top 10:
  1. 本站自动实时分享网络热点
  2. 24小时实时更新
  3. 所有言论不代表本站态度
  4. 欢迎对信息踊跃评论评分
  5. 评分越高,信息越新,排列越靠前