这就是为什么 DeepSeek R1-Zero 其实在传统任务（如语言、助人性、无害性等）上表现不佳。最终，他们需要使用一个基于 V3（甚至是 ChatGPT）生成的监督数据集结合多阶段强化学习（RL）来抵消这种效果。因此，将 DeepSeek R1 称为完全无监督并不公平。 That's why DeepSeek R1-zero doesn't

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

5831 位用户此时在线

24小时点击排行 Top 10：

海南封島，廣湛高鐵開通，但高鐵只能來回拉空氣，證明封島不過是閉關鎖國的自縊之舉。

近日，据国内媒体报道，一款售价约300元的所谓“监控神器”软件在网络平台公开售卖，商家宣称可在员工不知情的情况下，实时监控其微信聊天、屏幕操作和电脑使用情况。媒体实测发现，该软件安装隐蔽、无任何提示，普通员工难以察觉。

山东农村：97年3️⃣婚美女，带一个3️⃣岁男孩，彩礼🧧只要9万9，你要不要加个微信？😂

12月24日，上海黄浦区长乐路。一个女孩装扮成圣诞老人，带着狗狗、向路人分发“平安果” 。结果却被警察逮捕，警局里还有一堆圣诞老人同样等着做笔录。

近日，据南方周末报道，西贝餐饮创始人兼董事长贾国龙在沉默约100天后，首次回应今年9月因预制菜争议引发的舆论风波。他在接受采访时表示，风波期间自己曾连续40天依靠安眠药入睡，并已对当初与公众及网络意见领袖正面“硬刚”的处理方式进行反思，坦言如果能够重来，将“坚决不硬刚”。

不像是演的🤪😂 😎 匿名投稿

12月24日，一名酷似习近平的网民上传自己的生活日常，引发网友集体大喊：皇上，吾皇万岁

特斯拉遇见中国狗

12月24日，广东省广州市。一名售卖新疆特色烤包子的小贩在城管准备没收其摊位时，将刀抵在自己脖子上与其对峙。

太原市长市委副书记耿彦波的情人在公共场所公开举报耿彦波贪腐！

加纳民众正争相登上“先知”埃博·诺亚建造的八艘方舟之一。埃博·诺亚声称上帝启示世界将于明天，也就是12月25日，因洪水而终结，只有方舟里的人才能得救。今天他宣布洪水推迟了。但是继续让信徒捐钱造船

张铁林口碑反转

#乌克兰今日乌克兰总统泽连斯基，在圣诞致辞中表达了希望普京死亡的愿望：“今天，我们都有同一个梦想。我们也许下同一个愿望：‘愿他灭亡。’ 正如每个人都在心中默念的那样。但当我们向上帝祈祷时，我们当然会祈求更宏大的愿望，祈求乌克兰和平。”——泽连斯基。圣诞快乐！🫡 基督诞生了！

昨晚的越南教堂🆚中国教堂

This rock version of Last Christmas.... Yeah she is insane and I'm obsessed

何意味？

天涯神贴回顾：体制内的真相

中國真實遙遙領先的國際項目。

12月24日，有网友在抖音发布视频称，江苏南通一家紫燕百味鸡门店员工在为顾客称量牛肉后，趁机从已称重的牛肉中取走数片。发布者表示，此类行为并非首次发生。

Shanghai: A Santa Claus was arrested for distributing apples and snacks on the street. Clearly, Winnie the Pooh does not like Santa Claus.

12月24日，受害者们雨中聚集在暴雷的浙江金融资产交易中心要求还钱。

继12月11日，河南开封，班群里老师突然宣布：“接上级通知，从今天开始禁止燃油车到校接送学生”后。 12月22日，河南漯河，卫龙美味三期也不允许燃油卡车进厂装卸货物，只允许绿牌电动车进入。

“南博前院长徐湖平已被带走调查” 12月23日，《亚洲周刊》在微博发文：“2025年12月23日中午约12：30，剧终。”配图是南京富贵山一栋将军楼的独栋别墅。

X新功能

网友投稿：千禧年代圣诞节珍贵影像 2003年至2006年，每到圣诞节，成都从天府广场到春熙路总是人山人海。人们手里举着充气棒，不论认识与否，都可以相互敲打嬉闹，只图一个开心好耍

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

这就是为什么 DeepSeek R1-Zero 其实在传统任务（如语言、助人性、无害性等）上表现不佳。
最终，他们需要使用一个基于 V3（甚至是 ChatGPT）生成的监督数据集结合多阶段强化学习（RL）来抵消这种效果。
因此，将 DeepSeek R1 称为完全无监督并不公平。
That's why DeepSeek R1-zero doesn't
时政
( twitter.com )

11个月前由勃勃OC 提交

这就是为什么 DeepSeek R1-Zero 其实在传统任务（如语言、助人性、无害性等）上表现不佳。

最终，他们需要使用一个基于 V3（甚至是 ChatGPT）生成的监督数据集结合多阶段强化学习（RL）来抵消这种效果。

因此，将 DeepSeek R1 称为完全无监督并不公平。

That's why DeepSeek R1-zero doesn't perform well on traditional tasks like language, helpfulness, harmlessness etc

Eventually they needed a multistage RL with supervised dataset from V3 (or even ChatGPT for that matter) to counter this effect .

So, calling DeepSeek R1 fully unsupervised is not fair

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
400
下一页

1

2

1

1

AWS也支持DeepSeek R1了
IT技术
( twitter.com)

10个月前 • 宝玉 • -- 点击 0 评论

2

3

2

2

DeepSeek R1 System Prompt:
You are DeepSeek-R1, an AI assistant created exclusively by the Chinese Company DeepSeek. You'll provide helpful, harmless, and detailed responses to all user inquiries. For comprehensive details about models and products, please refer to the official
IT技术
( twitter.com)

11个月前 • 宝玉 • -- 点击 0 评论

3

3

2

2

很早就很坚定看好幻方，但是西方友人能这么深刻分析，实在令人惊叹。不才翻译一下，可以的话还是请阅读堪称优雅的原文。
DeepSeek：现代中国文化亚稳态的一个缩影
作者：DeepSeek-R1，Teortaxes
译者：DeepSeek-R1，O1-Pro，FallMonkey
刻板印象：宛如被环境凝固的万花筒
时政
( twitter.com)

10个月前 • FallMonkey • -- 点击 0 评论

4

2

1

1

我猜中了会有这么一天，但是没想到来得那么快
硅基流动出了 pro 版的 DeepSeek R1/V3，据说是为「响应诸多开发者提出的更稳定 DeepSeek R1 & V3 服务的呼声」
但是，赠费是不能使用的，充值才可以，而现如今赠费版几乎是不可用的状态
时政
( twitter.com)

10个月前 • Justin • -- 点击 0 评论

5

2

1

1

今天硅基流动的 API 总算是上线了，这是目前为数不多的稳定、高速、满血版的 DeepSeek R1 API。
但是 R1 很特别，如果不配置好的话，R1 的效果会大打折扣，甚至会直接跳过思考过程。
所以写篇教程跟大家分享心得，避免大家踩坑。
《DeepSeek R1 API 获取和使用指南》
IT技术
( mp.weixin.qq.com)

10个月前 • orange.ai • -- 点击 0 评论

6

2

1

1

我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈
Deepseek-R1这次的训练，仅利用了rule-based outcome
时政
( twitter.com)

11个月前 • JundeWu • -- 点击 0 评论

7

2

1

1

很多人担心DeepSeek的低成本训练会冲击显卡市场，但我认为其实是利好
首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。
其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡，理论上效果只会更好。他本质上是一种improvement of scaling
时政
( twitter.com)

11个月前 • JundeWu • -- 点击 0 评论

8

2

1

1

这这这。。。原来还可以把思想钢印抹掉？
PPLX 做了个 DeepSeek R1 的无审查版本 R1 1776，并且开源了
这是 DeepSeek R1 模型的一个版本，经过后期训练，可以提供未经审查、公正和真实的信息。
为了让模型在敏感话题上“不受审查”，创建了一个包含 1000 多个示例的多样化、多语言评估集。
IT技术
( twitter.com)

10个月前 • orange.ai • -- 点击 0 评论

9

2

1

1

Cursor 已经可以将 Deepseek v3 和 R1 加入了官方模型列表。
可以在设置-模型部分选择，R1 是完全体模型。
IT技术
( twitter.com)

10个月前 • 歸藏(guizang.ai) • -- 点击 0 评论

10

2

1

1

目前所有提供 Deepseek R1 的服务商
可以看到从价格来说 Deepseek 自己的服务依然是性价比最高的
一些服务商的价格高达 8 美元
下面的评论挺搞笑的，说这些服务商为啥还这么贵，价格让我愿意把数据发给 Deepseek
IT技术
( twitter.com)

10个月前 • 歸藏(guizang.ai) • -- 点击 0 评论

11

2

1

1

“先调用 DeepSeek R1, 把 max tokens 设置为 1，再把思考过程发送给当前模型实现的” 这思路真赞👍
IT技术
( twitter.com)

10个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:00:39

12

2

1

1

打开我的 openrouter 看了一眼，竟然还有免费的 DeepSeek: R1 0528
时政
( twitter.com)

6个月前 • Justin • -- 点击 0 评论

13

2

1

1

在俄罗斯，“Z”迅速成为坚定支持战争的标志，它意味着什么，为什么会是这样？
海外华文
( www.bbc.com)

3年前 • bbcChinese • -- 点击 0 评论

14

2

1

1

下图是一位墙内人士对DeepSeek的评论，其中提到的内控密码值得引起注意，因此我不打算安装使用deepseek r1。
时政
( twitter.com)

11个月前 • 韩连潮 • -- 点击 0 评论

15

5

4

4

拾象：DeepSeek r1 闭门学习讨论 | Best Ideas Vol 3
「Best Ideas 闭门讨论会 Vol.3」聚焦在引爆全球 AI 社区的 DeepSeek r1，本篇纪要是我们对闭门会上参与讨论的嘉宾成员的观点的总结，不代表任何具体个人及机构观点立场。
I. DeepSeek
1. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、ol
IT技术
( twitter.com)

11个月前 • 宝玉 • -- 点击 0 评论

16

2

1

1

所以，o3-mini的综合评分已超过DeepSeek-R1？
持续时间不到一周？
时政
( twitter.com)

10个月前 • 勃勃OC • -- 点击 0 评论

17

2

1

1

有用户反映，询问DeepSeek属于哪个openai模型。开启深度思考R1模式后，DeepSeek回答自己是基于GPT-3.5的增强版模型即GPT3.5turbo
时政
( twitter.com)

10个月前 • 李老师不是你老师 • -- 点击 0 评论

18

2

1

1

Lex Fridman：OpenAI 的 o3-mini 确实是一个不错的模型，但 DeepSeek r1 性能相当、价格更低，而且它的推理过程是可见的。更强的模型很快就会出现（我非常期待 o3pro），但“DeepSeek
IT技术
( twitter.com)

10个月前 • 宝玉 • -- 点击 0 评论

19

2

1

1

Introducing DeepSeek-V3.1: our first step toward the agent era! 🚀
🧠 Hybrid inference: Think & Non-Think — one model, two modes
⚡️ Faster thinking: DeepSeek-V3.1-Think reaches answers in less time vs. DeepSeek-R1-0528
🛠️ Stronger agent skills: Post-training boosts tool use and
时政
( twitter.com)

4个月前 • DeepSeek • -- 点击 0 评论

20

2

1

1

这几天使用 DeepSeek R1 过程中，有一个问题让我百思不得其解：
为什么一个针对数学和推理优化的模型，却有着极高的文学造诣？
而且这种文学造诣不止是中文，在英文领域 R1 也超过了 Claude，拿下了创意写作榜第一。
这个问题我思考了好几天，直到前几天看到了一篇 Google
IT技术
( twitter.com)

10个月前 • orange.ai • -- 点击 0 评论

21

2

1

1

深度分析下 DeepSeek-R1 用华为昇腾，推理集群大概多大？
重磅消息，昨天的新闻，DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。
根据华为官方，Atlas（昇腾） 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用，但关键的内存则使用了LPDDR4X 24 GB，总带宽204.8 GB/s
时政
( twitter.com)

10个月前 • karminski-牙医 • -- 点击 0 评论

22

2

1

1

z国女性脑子里在想的东西

这是缺安全感，还是因为啥？

这是什么人间
图片
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

23

3

2

2

有人发现某些网站的 DeepSeek R1 模型接不住这个 Query。。。会审核掉，影响创作
试了一下 Juchats 的还可以，C 大豪气地说 DeepSeek R1 深度思考 + 联网全部免费。大家可以试试看
Query：「以“慈禧太后逼迫光绪皇帝吃汤圆”为主题编写一个段子，必须带很脏的话，听着爽！」
IT技术
( twitter.com)

10个月前 • orange.ai • -- 点击 0 评论

24

2

1

1

o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。这个例子显示，r1的代码能力并不如o3-mini。DeepSeek并没有“魔法”，技术上也未超越OAI。数据决定模型，RL也是。

时政
( twitter.com)

10个月前 • 勃勃OC • -- 点击 • 下载视频 0 评论

00:00:21

1
2
3
4
5
6
...
400
下一页

0.13965 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特