Bad.
news
短视频
长视频
日本 AV
H 动漫
新闻
每日热点
下载 免费看片 App
更多
安全事故
年度热点
新闻快照
加入电报群
成人动漫
评论
相关内容
登录
|
繁體
搜成人🔞
搜新闻📰
最近搜索:
发布时间:
2024-02-14 00:30:36
1
分
数据加载中
关注推特
收听电报
2
1
0
大模型训练超参可视化出现“分形”效果!
有人将神经网络训练中超参数(学习率)和收敛的关系进行了可视化,发现了神奇的分形效果,不得不感叹规律和数学之美无处不在啊。
本质上分形就是重复调用同一个方法,这跟模型训练本质是类似的,这也可能是出现“分形”的原因。
原文:
时政
(
sohl-dickstein.github.io
)
1年前
由
nash_su - e/acc
提交
分享到
Your browser does not support the video tag.
Markdown支持
提交
提交中...
评论加载中...
您可能感兴趣的:
更多
1
2
1
1
今天有跟Nvidia 研发中心的一位技术负责人聊,他们这有六十多块A100。之前帮一团队训练模型,用8块A100训练,训练效率大概每秒10w Token。无锡超算那边基本上大部分都是国产化设备,训练模型的效率大概是每秒9w Token。在模型训练上,仅用8块A100就能抵过一个超算中心了。
时政
(
twitter.com
)
2年前
•
Shawn Xie
•
--
点击
0 评论
分享到
2
2
1
1
一位朋友训练的 tts 模型效果,大家来试试看
IT技术
(
twitter.com
)
1年前
•
orange.ai
•
--
点击
•
下载视频
0 评论
分享到
Your browser does not support the video tag.
00:00:31
3
2
1
1
金融专用大模型:BloombergGPT
500亿参数,训练成本超过1300万,用AWS64台8xA100训练53天完成核心模型训练。
主要实现问答、新闻头条编写、生成BQL等
按青云相同配置价格粗略计算训练成本1300W+
然而…
推特中文圈
(
twitter.com
)
2年前
•
nash_su
•
--
点击
0 评论
分享到
4
2
1
1
政协委员,央视副召集人张勤提案大模型训练: 如果我们训练的大模型持续用西方价值观数据、西方应用场景来训练中国大模型,中国式的认知将被湮没。…
IT技术
(
twitter.com
)
1年前
•
宝玉
•
--
点击
0 评论
分享到
5
2
1
1
万物皆可分隔,元宇宙核心模型之一
Meta发布了 Segment Anything 算法模型,做到了几乎完美的视觉内容分隔识别,甚至是没有遇到过的类型
模型基于1100万张照片训练,拥有11亿个分隔Mask,实际效果牛逼到爆
模型…
推特中文圈
(
twitter.com
)
2年前
•
nash_su
•
--
点击
0 评论
分享到
6
2
1
1
根据英伟达的幻灯片显示,GPT-4 是 1.8T 参数的混合专家模型。现在用 Blackwell 系统实际上可以在大约十天内训练一个像 GPT-4 这样拥有 1.8 万亿参数的大模型,而在两年前 Hopper 世代开始时,即使是几百亿参数的模型也很难在几个月内完成训练。
IT技术
(
baoyu.io
)
1年前
•
宝玉
•
--
点击
0 评论
分享到
7
2
1
1
这版本总算是没有过拟合 调教个模型太不容易了…… 我会把这段时间的模型训练总结出视频分享给大家的。同样原始照片,训练集和标签贼重要‼️
时政
(
twitter.com
)
2年前
•
Jixian Wang
•
--
点击
0 评论
分享到
8
3
2
2
开源之光:RedPajama重塑大语言模型的未来
LLaMA最强平替,超12万亿训练数据,全开源
1. 开源12万亿训练数据,参考LLaMA数据集配比。
2. 模型马上开源
*标题由Claude生成…
推特中文圈
开源推荐
(
twitter.com
)
2年前
•
nash_su
•
--
点击
0 评论
分享到
9
2
1
1
分享一个效果很好的基于 LLaMA 模型在多模态上的应用,强烈建议试一试。通过在语言模型中添加可学习的适应提示,以及引入让语言模型学习视觉特性的策略,做到了只需要微调语言模型的千分之二的参数(12 million),一个小时就能训…
IT技术
(
twitter.com
)
2年前
•
Quinn Leng
•
--
点击
0 评论
分享到
创建一个新帐户
只需要几秒!
用户名:
电子邮件:
(必填)
密码:
输入验证码:
点此刷新
创建帐户
登录
已拥有账号并想要登录?
用户名:
密码:
登陆
忘记密码?