这个人的理论很有意思总而言之，为什么之前所有用简单RL实现模型推理的工作都失效了，但DeepSeek却能一夜之间成功？到底发生了什么？他的理论是：因为过去2年，LLM崛起之后，人们在LLM上进行了大量的CoT（思维链）工作；这些工作混入了现在的训练数据里，改变了新训练大语言模型的行为

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

2746 位用户此时在线

24小时点击排行 Top 10：

Watch video

Watch video

Watta... 🧿🧿

Watch video

23岁180cm75kg，一名辅警。他真的太帅了，再次见面时，他说他一直忘不掉我身上的香味，还主动给我买了一大堆的零食。然后轻触我的双唇：“我真的太久没碰女的了。”他搂着我的腰，“不胖，小腿也很细，腰也很细。”只是，他还是套两个套，插进来猛干10分钟，缴械投降后，穿上运动服去找他同事打麻将去了。

Watch video

#乌克兰今日乌克兰英雄 Danilkina 在俄罗斯入侵乌克兰第一天应征入伍，成为一名军人。她开始在相对安全总部工作，但想去前线，她担任通信操作员。去年，她坐的汽车遭到俄军炮火袭击，她受伤了。她失去了腿，但仍然坚强，决心要快乐生活。她梦想拥有最先进的假肢，并重返乌克兰武装部队。

上海这雨下的，大上海变大海上。

7月19日，上海杨浦暴雨内涝情况

Watch video

Watch video

Watch video

东道主三国元首在防弹玻璃后面看世界杯总决赛

حين يصمت العالم، يستمر الظلم في فلسطين.

Watch video

麦当娜，快70了，相当不错👍

天啊，谁能相信Shakira 快50岁了！两个孩子的妈妈，她身材脸部管理得太好了！不老女神！

世纪金曲！ 1998年，没有TikTok，没有推特，没有YouTube，这首世界杯主题歌曲却传遍了全世界！没有再被超越过

7月19日广东汕头龙眼北路一处下水道发生沼气连环燃爆

“作风优良” 7月19日，陕西地铁，一名疑似当地武装部民兵，身穿制服，大摇大摆脱鞋后直接横躺在座位上。

Watch video

7月19日，上海暴雨，导致上海顶级高端商场国金商场漏雨，上海虹桥火车站也出现多处漏雨。

7月19日，广东两个老人捡垃圾，为了争夺一个瓶子而大打出手。此事引发评论区网友热议，有人质疑“连捡垃圾都这么卷了”。

Shakira and her background dancers smashed this performance

Watch video

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

这个人的理论很有意思
总而言之，为什么之前所有用简单RL实现模型推理的工作都失效了，但DeepSeek却能一夜之间成功？到底发生了什么？
他的理论是：因为过去2年，LLM崛起之后，人们在LLM上进行了大量的CoT（思维链）工作；这些工作混入了现在的训练数据里，改变了新训练大语言模型的行为
时政
( twitter.com )

1年前由勃勃OC 提交

这个人的理论很有意思

总而言之，为什么之前所有用简单RL实现模型推理的工作都失效了，但DeepSeek却能一夜之间成功？到底发生了什么？

他的理论是：因为过去2年，LLM崛起之后，人们在LLM上进行了大量的CoT（思维链）工作；这些工作混入了现在的训练数据里，改变了新训练大语言模型的行为

也就是说，训练数据被污染了。LLM的输出泄露到了信的文本数据之中；这里面恰巧就包含了很多模型自己的CoT的标注

这样，在此基础上训练出来的DeepSeek V3实际上是和CoT天然对齐的

那么，在V3上再进行RL，就显得额外简单

如果这个理论是真的，那么Meta/OpenAI想要直接上RL，可能还没这么简单。至少他们的Base Model或许需要重新训练一下？

但问题是，没人知道DeepSeek的数据是什么啊。DeepSeek的人能透露一下，他们的14T数据里，有多少CoT标注吗？

谢谢大家

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
400
下一页

1

2

1

1

我不理解，人与人之间为什么会有这么大的敌意。
推特中文圈
( twitter.com)

3年前 • Philo 0 评论

2

2

1

1

@HernandezJavier 习近平的头衔如此之多——超过10个，而且还在增加——以至于有人称他为“万能主席”。这些头衔反映了他作为中国最有影响力的现代领导人之一的地位。
所有这些头衔的意思是什么？为什么头衔很重要？下面是一个…
大陆资讯
( twitter.com)

8年前 • 纽约时报 0 评论

3

2

1

1

川特勒为什么明知不可为而为之？为什么明知不该言而言之？无非就是为了骗取蠢人、坏人或又蠢又坏者手中的选票而已。川特勒明知不该言而言之，就是为了取悦这些要么蠢要么坏要么又蠢又坏者；川特勒明知不可为而为之，就是为了敷衍要么蠢要么坏要么又蠢又坏者。期待下一个被判决违法违宪的川特勒总统令。
时政
( twitter.com)

1年前 • 程益中 0 评论

4

2

1

1

其实王局推特被封是我意料之中的。
他并没有理解什么是言论自由，也没有找到言论自由的边界是在哪里。
时政
( twitter.com)

3年前 • 多伦多方脸🇹🇼🇨🇦🇺🇦 0 评论

5

2

1

1

类似于“中国为什么没出现chatgpt”的提问还有很多，之前是苹果、马斯克、科学、工业革命……这其实反映出了很多人心中的天朝上国心态。问题是，您一个被共产党统治的人矿之国，自己什么德性心理没点b数吗？怎么好意思忝着脸问这种问题？
时政
( twitter.com)

3年前 • 豆瓣鹅组日报 0 评论

6

2

1

1

我们在讲四个自信的时候，是否要认真仔细的去思考一个问题，我们的执政自信到底来源于什么，之前很多人不相信中国的社会主义道理是否正确，之前很多人无法从理论上来彻底的解释我们的有中国特色社会主义理论的自信，之前还有人不理解我们的社会制度的合理性和合法性。而这些人，很多都是我们党内的同志
推特中文圈
( twitter.com)

5年前 • twitter机器人 0 评论

7

2

1

1

我也不知道什么意思。是不是亚速营隶属这个部队。言外之意。他们被消灭了？
推特中文圈
( twitter.com)

4年前 • twitter机器人 0 评论

8

2

1

1

涉政不当言论是什么意思？
什么又是涉政恰当言论？
时政
( twitter.com)

2年前 • Jixian Wang 0 评论

9

2

1

1

2005年，钱学森向温家宝总理提出一个问题，后来被称为“钱学森之问”：为什么我们的学校总是培养不出杰出人才？虽然他当时只是针对科学研究而言，但这个问题可以推广到很多领域。…
时政
( twitter.com)

2年前 • Petrichor 0 评论

10

2

1

1

很多人都喜欢跪拜祖宗，信誓旦旦要给祖宗争光之类的，我就没兴趣，一帮死人，有什么意思。

为什么没有人对着未来人类发誓呢，可能这也是为什么，我从来对穿越到过去不感兴趣，我只想奔向未来看一看。

我总觉得如果这个世界真有什么科学难以解…
推特中文圈
( twitter.com)

4年前 • twitter机器人 0 评论

11

3

2

2

这个美女是谁？见到张大导演的肢体语言为什么这么奇怪？这是什么意思？🤔
时政
( twitter.com)

1年前 • 貓神•華語時政新聞 0 评论

12

2

1

1

对 #习近平而言，为什么中亚之行意义重大？他的目的究竟何在？
推特中文圈
( www.dw.com)

3年前 • 德国之声 0 评论

13

2

1

1

南京有什么「鲜为人知但很有意思」的景点？
大陆资讯
( www.zhihu.com)

6年前 • 知乎每日精选 0 评论

14

2

1

1

这一问题很复杂。如果社交网络不禁止儿童色情或ISIS恐怖主义言论，甚至以言论自由为名加以保护，肯定没什么人赞成。

既然有些言论该禁，那么社交网络禁止言论的行为本身就不是个问题。问题只能是什么该禁。这个永远没有共识。

在民主的意…
推特中文圈
( twitter.com)

5年前 • twitter机器人 0 评论

15

2

1

1

你读过的最有意思的理论计算机（Theoretical Computer Science）论文是什么？
大陆资讯
( www.zhihu.com)

6年前 • 知乎每日精选 0 评论

16

2

1

1

成都有什么鲜为人知，但是很有意思的地方？
大陆资讯
( www.zhihu.com)

6年前 • 知乎每日精选 0 评论

17

2

1

1

这几天心情不好。
反思自己，反思社会，反思人生

单位来了一个21岁的女孩，很漂亮。是派遣公司的，我问她为什么选择这个工作？她说工资高。。。
我问，你的理想是什么？
她说，没有想过理想是什么就已经长大了……
情不自禁为她可惜，总觉…
推特中文圈
( twitter.com)

5年前 • twitter机器人 0 评论

18

2

1

1

在知乎上看到一个问题：为什么熬过低谷后的人很多都沉默少言了？

这个回答让我联想到中国为何不热衷搞舆论战，被动应付舆论战，也许有点道理。

“人们听的根本不是道理，而是结果，其实也不是结果，而是利益，你讲什么不重要，你是谁很…
推特中文圈
( twitter.com)

3年前 • twitter机器人 0 评论

19

2

1

1

本届大选，两名副总统候选人的背景南辕北辙。资深分析人预测，“这场交锋会很有意思。”为什么这么说呢？

大陆资讯
( bbc.in)

5年前 • bbcChinese 0 评论

20

2

1

1

还有一类骂我的评论说：道理都对，就是态度太爹味，是个女爹

爹味这个词我理解的意思是：讲话很笃定，有说教的意思，作为一个前辈的样子来跟小朋友讲话。

而我要的就是这个效果啊！

女性很多时候讲话就是太不笃定，让人家不确定你到底什…
推特中文圈
( twitter.com)

4年前 • twitter机器人 0 评论

21

2

1

1

不是很理解，我很疑惑？四个人的演唱会，宣传视频这个镜头是什么意思？？拍摄和剪辑的在想什么🙂🙂🙂
图片
( twitter.com)

3年前 • Doris 0 评论

22

2

1

1

我国万事不进步，而独防民之术，乃突过于先进国。——梁启超

美国第一任总统乔治·华盛顿说：为什么禁止言论自由？
只有三个解释：1.过去做了坏事，怕人们提起; 2.正在干坏事，怕人们批评; 3.准备干坏事，怕人们揭露。总之，禁止言论…
推特中文圈
( twitter.com)

4年前 • twitter机器人 0 评论

23

2

1

1

这时如果一个人有想法、愿意用自己的头脑思考问题，并且有时会质疑上司，或者直言不讳地指出哪些不合理之处，那他和“敌人”的范畴就只有一步之遥了，被群起而攻之就是早晚的事。
大陆资讯

8年前 • xiangwuxiao 1 评论

24

2

1

1

说到润，我只是因为胆小而润的。说大了是因为（because, not for）言论自由，但也可以说实际甚至市侩一点：如果没有言论的自由，那就没有思想的自由，而你脑子都不属于你自己，你还有什么立锥之地？…
时政
( twitter.com)

3年前 • Eric Liu 刘力朋⏭️ 0 评论

1
2
3
4
5
6
...
400
下一页