昨晚圈子被一个叫MoE 8x7B模型刷屏了，这应该是第个一个开源权重的MoE架构LLM。在HF排行榜上这个7B模型击败了很多70B和34B的模型。之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。 MoE可以与使用两倍FLOPs的密集模型相媲美。例如，使用相同的数据和 FLOP，LLaMA 7B 的 MoE 版本应该与…

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

4911 位用户此时在线

24小时点击排行 Top 10：

上街的伊朗人正在被伊朗伊斯兰政权屠杀。

1月10日，浙江杭州，第六个警察节当天，警方在浙金中心维权现场对群众采取暴力执法。从浙江省政府信访局起，维权群众被一路强行驱赶，直至杭州西湖一带。

中国影视史十大绝色美人，你最喜欢哪一位？

1月10日，伊朗断网后，反抗哈梅内伊的民众正在被伊斯兰政权屠杀。

🚨最后留个纪念，她未来会被载入历史，写入电影小说，当人们最终能够公开总结这段ICE疯狂的时候。

抵制彩礼🧧，鄙视陋习，拥抱文明与爱情👨‍❤️‍👨💖 这才是娶回了爱情的样子：留学美国的博士五年没钱理发，漂亮😻白人老婆不要彩礼一起奋斗！👏

田朴珺正式声明：姐不是“王的女人”，姐就是“女王”👍😂

网友投稿：山东省苍山县（今兰陵）胶轮车车牌。

当委内瑞拉独裁总统马杜罗被美国逮捕后

马可·卢比奥递给川普一张私人纸条，然后川普当着现场摄像机和会议参与者的面大声朗读了这张纸条

这伊朗大使馆的人也是意识到大势已去吗？连个护旗子的都没？

杨澜：你遇见过潜规则吗？柯蓝：谁瞎了眼潜我呀！不是谁瞎眼，而是没人敢：柯蓝的爷爷钟期光，1955年被授予上将军衔柯蓝：原名钟好好，《人民的名义》陆亦可

如何快速提高和培养口才表达能力，看透问题本质的能力以及解决问题的能力。

🚨 突发：明尼阿波利斯市警察和州警大批部署严阵以待在ICE住宿的希尔顿旗下的 Canopy 酒店外，抗议者持续在这里制造噪音抗议示威。抗议活动持续到深夜，要求沃尔兹州长和弗雷市长逮捕当街杀人的ICE 杀手乔纳森·罗斯。

今天继续播报伊朗。那张美少女抽烟点燃哈梅内伊画像的著名照片，是怎么拍出来的？

简单拉伸筋长一寸，寿长十年

毁人术：最快搞垮一个人的办法！虽然很脏，但很有效，看完可能让你双腿打颤、后背发凉。

“从警20年，儿子死于校园暴力：维权父亲被鉴定为“精神病””

與六四一樣！ 2026年的1月，世界已經不同於1989年的6月！我相信伊朗人民不會白白被屠殺，他們是在黎明前倒下，劊子手哈梅內伊就會被清算，血債一定會用血來償還!勇敢的伊朗人民繼續在推翻邪惡的哈梅內伊政權，正義一定會出手！自由民主的伊朗就在眼前！

冬天到了，三将军带着老婆开着叉车，亲手种了一颗树👍

完整版一名伊朗男子徒手攀上伊朗驻伦敦大使馆的阳台，扯下了哈梅内伊政权的旗帜，自豪地向人们展示伊朗狮子太阳旗。

真别说啥信息茧房现在央视底下评论都变这样了我有时候都怀疑审核员呢？

现在看抖音抖音支持台湾的比例都比推特要高了

伊朗女孩儿点燃了哈梅内伊的照片，用燃起的火焰点着了她的香烟

成功秘籍：如何搞定一个开劳斯莱斯的女神～～😂

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

3

2

1

昨晚圈子被一个叫MoE 8x7B模型刷屏了，这应该是第个一个开源权重的MoE架构LLM。
在HF排行榜上这个7B模型击败了很多70B和34B的模型。之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。
MoE可以与使用两倍FLOPs的密集模型相媲美。例如，使用相同的数据和 FLOP，LLaMA 7B 的 MoE 版本应该与…
IT技术
( twitter.com )

2年前由歸藏提交

昨晚圈子被一个叫MoE 8x7B模型刷屏了，这应该是第个一个开源权重的MoE架构LLM。
在HF排行榜上这个7B模型击败了很多70B和34B的模型。之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。
MoE可以与使用两倍FLOPs的密集模型相媲美。例如，使用相同的数据和 FLOP，LLaMA 7B 的 MoE 版本应该与 LLaMA 13B 相当。

下面是MoE架构LLM的简单介绍：
Moe（混合专家模型）架构的LLM（大型语言模型）指的是一种神经架构设计，它将稀疏混合专家技术整合进来，以增加可学习参数到大型语言模型中而不增加推理成本。

MoE架构为LLMs提供了几个优势：
◆增加参数效率：MoE允许在不显著增加推理成本的情况下向LLMs添加可学习参数[1]。这使得能够开发更强大的模型，而无需成比例地增加计算要求。
◆通过指导调整改善性能：研究表明，MoE模型比密集模型更容易受益于指导调整。例如，FLAN-MOE-32B 模型在使用仅三分之一的 FLOPs 的情况下，在四项基准任务上优于 FLAN-PALM-62B
◆适应多样化数据：MoE架构可以处理现代数据集的增加复杂性和规模，这些数据集通常包含具有截然不同特征与标签关系的不同区域
◆潜力更高的参数效率：SaMoE 架构是 MoE 的一个变体，通过减少总参数达到了最多 5.2 倍，并且相较于基线取得了卓越的预训练和零-shot泛化结果。

MoE的模型也有两个问题：
MoE 模型比普通密集模型更难微调；
MoE 模型会消耗大量显存；

下载MoE 8x7B的模型权重：https://t.co/JBcfOiJUxn
这里在线体验MoE 8x7B模型：https://t.co/DvCuMSFlcd

点击图片查看原图

点击图片查看原图

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
400
下一页

1

2

1

1

#AI开源项目推荐：中文Mixtral-8x7B（Chinese-Mixtral-8x7B）
官方介绍：本项目基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练，希望进一步促进中文自然语言处理社区对MoE模型的研究。…
IT技术
( twitter.com)

2年前 • 宝玉 0 评论

2

2

1

1

重新发一下MoE 8x7B的介绍原来的删掉了，由于没有在HF模型排行上找到我就直接复制了 8x7B由于官方没有说明很多内容都是拼凑的就没有把参考的内容都粘过来。…
IT技术
( twitter.com)

2年前 • 歸藏 0 评论

3

2

1

1

Mistral AI放出Mixtral 8x7B, 基于Mixture of Experts (MoE)的开源模型，效果不错。
但在我看来，MoE是transformer时代LSTM-GRU，是NLP古早的范式，architecture engineering，非常old school。核心方法是加一些gate来加强Efficient Training at…
时政
( twitter.com)

2年前 • Sverige_ Dong-seok🇸🇪 0 评论

4

2

1

1

昨晚的朋友圈被上海朋友霸屏了
图片
( twitter.com)

3年前 • twitter机器人 0 评论

5

2

1

1

分享一下这个在朋友圈刷屏的视频，昨晚听证会的一个片段，挺不错的一段对话。

（搬运自indigo的数字影像）
视频
( twitter.com)

4年前 • twitter机器人 • 下载视频 0 评论

6

3

2

2

朋友圈先被红刷屏再被这只鸡刷屏
图片
( twitter.com)

3年前 • twitter机器人 0 评论

7

2

1

1

哇塞，Mixtral-8x7b 已经成为排名第一的开源模型。
另外
IT技术
( lmsys.org)

2年前 • 宝玉 0 评论

8

2

1

1

从昨天开始朋友圈就被这张图刷了屏………………献给所有的你们。
图片
( ww1.sinaimg.cn)

10年前 • 有趣图片 0 评论

9

2

1

1

今晚的朋友圈西城男孩刷屏了…
大陆资讯

4年前 • 小唧唧 0 评论

10

2

1

1

朋友圈一个很火的段子刷屏了……

转【师徒问答】
时政
( twitter.com)

3年前 • twitter机器人 0 评论

11

2

1

1

Qwen3 发布啦!
本次发布的模型包括:
MoE 模型
Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K)
Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K)
非 MoE 模型:
Qwen3-32B
Qwen3-14B
Qwen3-8B
Qwen3-4B
Qwen3-1.7B
Qwen3-0.6B
新版本的 Qwen3 特性如下:
- 混合思维模式,
时政
( twitter.com)

8个月前 • karminski-牙医 0 评论

12

2

1

1

最后这一句昨日刷屏
图片
( twitter.com)

3年前 • twitter机器人 0 评论

13

2

1

1

关于三种类型的专家混合模型 (Mixture of Experts, MoE) 的简短教程，包括预训练的 MoE、升级的 MoE 和 FrankenMoE。
作者还提供了推荐的论文列表，可以去原贴查看。
MoE 概述
MoE 使用稀疏的 MoE 层替换前馈层。这些层包含一定数量的专家(例如8个),每个专家都是一个神经网络(通常是前馈网络…
IT技术
( twitter.com)

1年前 • 歸藏 0 评论

14

2

1

1

今天，朋友圈刷屏了！骂声一片！
时政
( twitter.com)

3年前 • twitter机器人 0 评论

15

2

1

1

看很多人说朋友圈被《四月之声》刷屏，这次轮到我在平行世界了，我的朋友圈没有刷到一条
推特中文圈
( twitter.com)

3年前 • twitter机器人 0 评论

16

2

1

1

被朋友圈刷屏了。。真的救命。。。好想重新投胎。。。
推特精选
( twitter.com)

4年前 • twitter机器人 0 评论

17

6

5

5

昨晚刷屏财经界的“中国私营经济退出论”，说这话的吴小平是谁？
大陆资讯
( fx.weico.cc)

7年前 • 观摩团 0 评论

18

2

1

1

昨晚朋友圈解封了，我不知悔改刷屏直播VA选举的内容，今天墙内朋友说又看不到你朋友圈了，我都不谈你国的事情，谈谈我国的事都不行吗？
时政
( twitter.com)

4年前 • twitter机器人 0 评论

19

2

1

1

昨天社交媒体上刷屏。
图片
( twitter.com)

3年前 • twitter机器人 0 评论

20

2

1

1

昨天，这个演唱会刷爆港娱圈
大陆资讯
( mp.weixin.qq.com)

5年前 • 微信公众号 0 评论

21

2

1

1

圈着这句今天刷屏了
图片
( twitter.com)

3年前 • twitter机器人 0 评论

22

2

1

1

「待定路」朋友圈刷屏了
图片
( twitter.com)

3年前 • twitter机器人 0 评论

23

2

1

1

就在刚刚 OpenAI 发布了两个开放权重模型! 给大家带来深度解析!
gpt-oss-120b 激活参数量 5.1B
gpt-oss-20b 激活参数量 3.6B
两个都是 MoE 架构的推理模型.
首先, 这两个模型发布的就已经是量化版本了, 他们的 MoE 层直接用 MXFP4 精度训练的! 这意味着暂时没有办法微调这两个模型了
时政
( twitter.com)

5个月前 • karminski-牙医 0 评论

24

2

1

1

好孩子，被她刷屏了
每日热点
( twitter.com)

2年前 • SFD • 下载视频 0 评论

00:00:12

1
2
3
4
5
6
...
400
下一页

0.10808 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特