最近完善了下自己的中文模型能力评测集，包含如下部分：指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。阅读理解：关注长上下文的阅读理解和回答能力。长文本检索：将LLM作为rerank 代码生成：参考HumanEval 设计。工具调用：目前只设计了单轮调用，不涉及plan和reflect。…

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

5400 位用户此时在线

24小时点击排行 Top 10：

网友投稿：近日，北京市顺义区应急管理局相关领导在开展慰问活动时，向一线消防员发放的慰问品被发现全部为空纸箱。

美国网友发现，很多公布了的爱泼斯坦文件，那些被黑条遮挡起来的部分，只要复制粘贴到Word就能看见。这是因为司法部是通过PDF简单的加上黑条，但底部的文字是没有经过任何处理的。所以说，一个史上最无能的美国总统，组成了一支史上最无能的美国政府团队。

原大同市长耿拆拆、现太原市长、市委副书记耿彦波，被情人公开高呼是大流氓、贪污犯👍😂

外強中乾的中國經濟

我要是不加个大箭头，你们根本不知道东京火车站这是遇到了谁。也不封路，其他乘客照走不误，跟金正恩去北京火车站的气势相比，差出十万八千里。为啥她不怕群众中的坏人呢？ 😎 匿名投稿

如此为难一个列车服务员，已经突破做人底线了👍

网友投稿内部文件：“关于2026年春晚四马马吉祥物存在重大对外传播风险需紧急干预的建议”。

五月天乐队主唱在上海演唱会上意外跌落舞台

12月23日广州市白云区，一个摊贩被城管拦下，撕心裂肺的痛哭大喊“我不卖了，我要回去啊”

抖音流传视频，长沙当地司机驶过示威外卖骑手队伍时，纷纷向他们鸣笛致意🫡，现场爆发热烈欢呼🥳！ #全民反抗

如此悲观？习主席不是常为我们鼓气吗！

突发：俄罗斯当局称，莫斯科发生汽车爆炸，造成两名交警和一人死亡。此前，一名俄罗斯将军在汽车炸弹袭击中丧生。

中國車遇上中國路

“不要停，我还要，快点戴套操我”！极品淫妻被绿帽老公带出来和三个单男玩群交p, 被艹爽了，直接要求他们三人一起艹！本片已经更新在主页置顶电报群

12月23日，湖南省长沙市，长沙阳光城欠薪，工人讨薪。 12月23日，河北省高碑店市。工人反映：高碑店沐春上禾月子中心欠工资，我们受八十名员工委托，共计欠薪八十万，投诉无门。 12月23日，山东省潍坊市，鲁元建材有限公司。工人反映：2000年的八个月工资被拖欠至今，已经25年了，堵门讨薪。

目前公布的爱泼斯坦照片中，最令人不安的是在女性不同身体部位用黑色墨水写下的小说《洛丽塔》中的句子。爱泼斯坦有可能用这本书来装潢门面，他跟哈佛大学文学教授艾丽莎的通信中提到了这本书，教授说我一会要上楼去找我的那本了。艾丽莎是文件披露后最倒霉的关联受害者、哈佛前校长萨默斯的妻子。

12 月 21 日，山东，一名博主在冬至当天亲手包饺子，并准备了牛奶，送给清晨仍在工作的环卫工人，以此表达慰问与感谢。

#乌克兰战报乌克兰国防部视频：精准打击！乌克兰无人机对一辆正在行驶的俄罗斯BTR-82A装甲运兵车投掷弹药。。。。！

中文投资公司正在收购数百所美国学校。你没听错。包括在19个州拥有240所学校的春季教育集团（Spring Education Group）。背后是一家中资公司，其CEO被形容为狂热的中共民族主义者。他们想干什么？自1921年成立以来，中共就把美国视为头号敌人。

12月24日，长沙外卖员抗议事件后续有外卖员被长沙公安电话约谈要求见面“了解情况”。外卖小哥称自己晚上才有时间，警察表示愿意等待，甚至可以上门找小哥。警察称有部分人员在借外卖员抗议事件吸引流量，“借机生事”。

不要再説日本舶來中國文化精髓啥的，左圖這種大國文藝座談會所體現的中華文明精華，日本就學不會。右圖：12月22日，高市早苗在首相官邸與日本「酷產業」的相關人士進行了會談，押井守、村上隆，以及風格鮮明的デーモン閣下等到訪。

Surprise😂😂

12月24日，威海警方发布悬赏通告：最高25万元追捕两名台湾籍犯罪嫌疑人。

“学生纵火引发火灾，58岁班主任因管理责任被判刑6年” 河南某小学，58岁的女教师贾霞，月薪三千，白天担任班主任，晚上兼任宿管。 24年1月，有学生纵火，引发宿舍火灾。事发当晚，贾霞作为兼任宿管老师，已按流程安顿学生就寝，并向家长报备，随后休息。

#乌克兰战报胜利即将到来！荣耀属于乌克兰！🇺🇦

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

最近完善了下自己的中文模型能力评测集，包含如下部分：
指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。
阅读理解：关注长上下文的阅读理解和回答能力。
长文本检索：将LLM作为rerank
代码生成：参考HumanEval 设计。
工具调用：目前只设计了单轮调用，不涉及plan和reflect。…
时政
( twitter.com )

1年前由九原客提交

最近完善了下自己的中文模型能力评测集，包含如下部分：

指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。
阅读理解：关注长上下文的阅读理解和回答能力。
长文本检索：将LLM作为rerank
代码生成：参考HumanEval 设计。
工具调用：目前只设计了单轮调用，不涉及plan和reflect。
Text2SQL，参考了sql-eval。
数学计算：参考gsm8k，考验cot能力。
行测：公务员行测最新考题，包含常识、逻辑、语言理解。

限于精力，每个子集只有30-100道不等。所有的Prompt 和数据都是中文，大量利用GPT-4辅助合成，抓取最新数据避免污染。

评估数据应该不会开放，但是评估代码在重构，重构后应该会放出。

有兴趣建设自己的模型评测数据集的可以参考。

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
400
下一页

1

2

1

1

最近密集测试了最新的多款支持中文的模型，做如下推荐：

1. 商用请选择 Aquila 或者 baichuan（需申请）。
2. 预训练模型推荐 baichuan-7B 或 Aquila-7B。
3. 开箱即用的 Chat 模型，…
推特中文圈
( twitter.com)

2年前 • 九原客 • -- 点击 0 评论

2

2

1

1

最近两个月大家肯定看到各家模型都号称超越 ChatGPT 性能，霸榜各大测试数据集，但实际使用效果却很一般。背后最大的原因是，学术界现有的测试方法无法完善地评价 LLM 的综合能力。这篇由 Berkeley、UCSD、CMU 联合…
IT技术
( twitter.com)

2年前 • Quinn Leng • -- 点击 0 评论

3

2

1

1

文档识别模型，我一般就用这个图测试。
大家可以猜猜哪个模型最好，也可以自己测试下。
时政
( twitter.com)

3个月前 • 九原客 • -- 点击 0 评论

4

2

1

1

我们做了一个大模型测试集「Z-Bench」，300个问题全方位考察大语言模型能力
大陆资讯
( mp.weixin.qq.com)

2年前 • 三聚氰胺 • -- 点击 0 评论

5

2

1

1

【斯坦福教授诱导GPT-4写出自己的“越狱计划”】Michal Kosinski 今年2月曾提出，心智理论可能自发地出现在大型语言模型中。最近他测试发现，GPT-4解决心智任务的能力已经达到了健康成年人的水平。
大陆资讯
( www.qbitai.com)

2年前 • 吊死团 • -- 点击 0 评论

6

2

1

1

当 AI 能考上一本，十年寒窗苦读还有意义吗？
这两天被一条新闻刷屏，就是极客公园做的一个测试，找了九个大模型测试 2024 年高考试卷，结果有四个大模型文科成绩上了一本线，整体表现最强的是 GPT-4o（文科 562 分），国内模型中表现最好的是字节的豆包（文科 542.5）。相比文科，AI
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

7

3

2

2

最近又密集做了一波应用，换了很多模型，感受：国内模型相比于顶尖国外模型还有差距，尤其是在真实生产环境（包括RAG、Agent、数据合成等应用中）：
- 最好的推理模型o1
- 最好的代码模型claude sonet
- 最好的多模态输入模型 gemini flash 2.0
-
时政
( twitter.com)

1年前 • 九原客 • -- 点击 0 评论

8

2

1

1

达克效应：
1. 能力最差的人对自己的评价离事实最远；
2. 能力中间偏前的人对自己的评价最准；
3. 中间偏后一点的人，对自己的评价最高；
4. 能力最强的人对自己的评价偏低。
图片
( twitter.com)

2年前 • 章工GPT • -- 点击 0 评论

9

2

1

1

nano-banana 大展宏图！开个我的图像编辑测试大合集贴！
目的：
✅探索模型能力边界
✅模型各有所长，方便大家根据细分场景找到最合适自己的模型
✅方便整活/灵感
参与对比模型（当前版本四强/各有所长）：
1️⃣nano-banana（Gemini2.5FlashImg
2️⃣GPT-Img
3️⃣Flux-Kontext-Pro
4️⃣Qwen-Img-Edit
1/n
时政
( twitter.com)

3个月前 • -Zho- • -- 点击 0 评论

10

3

2

2

目前英文 7B 规模的 SOTA 模型是 zephyr-7b-beta。它放弃了质量参差不齐的开源数据集，使用ChatGPT和GPT-4 全新标注了 UltraChat 和 UltraFeedback 数据集（已开源）。是 llama-index 项目实测出来唯一能够支持 Agent 的小参数模型。

与之相比，中文开源模型虽多，数据集却很少开源。
时政
( twitter.com)

2年前 • 九原客 • -- 点击 0 评论

11

2

1

1

微软推出了一个专门用于评估大语言模型的整合性工具库：PromptBench
提供了一系列工具，包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击（即测试模型对恶意输入的抵抗力）等。
以支持研究人员从不同方面对LLMs进行评估和分析。
主要特点和功能：…
IT技术
( twitter.com)

2年前 • 小互 • -- 点击 0 评论

12

2

1

1

马斯克X AI发布Grok-1.5 Vision 多模态模型
Grok-1.5V能够处理文本以及各种视觉信息，包括文档、图表、截图和照片。
基准测试中，Grok-1.5V 的能力和GPT 4V不相上下，多项指标甚至超过GPT 4V！
在新RealWorldQA真实世界物理空间基准中的表现超过GPT 4V等所有模型！…
时政
( twitter.com)

1年前 • 小互 • -- 点击 0 评论

13

2

1

1

藏师傅第一时间测试了一下 Sora 2，这玩意太吊了
不能用常规的 AI 视频模型评判标准去看待
它只需要两秒的音频就可以完美克隆你的音色，而且不止可以生成英文语音，中文也行！
而且模型具有世界知识，可以自主规划每个分镜，跟一个成熟的导演一样！
下面是详细的测试👇：
IT技术
( twitter.com)

2个月前 • 歸藏(guizang.ai) • -- 点击 • 下载视频 0 评论

00:00:29

14

2

1

1

#工程师学习你知道当前 AI 语言模型在中文中能力水平如何吗？刷Github 看到一个评估套件叫做「C-Eval」，一个全面的中文基础模型评估套件，包含了 13948 个多项选择题，涵盖了 52 个不同的学科和四个难度级别，对当…
IT技术
( twitter.com)

2年前 • Tw93 • -- 点击 0 评论

15

2

1

1

一个高质量PDF内容提取工具：PDF-Extract-Kit
PDF-Extract-Kit通过集成多个模型实现了PDF高质量提取，适用于学术论文、教科书、研究报告和财务报表等多种文档类型，在扫描模糊或有水印的情况下也能保持高鲁棒性
1、布局检测采用LayoutLMv3模型进行区域检测，包括图像、表格、标题、文本等
时政
( twitter.com)

1年前 • AIGCLINK • -- 点击 0 评论

16

2

1

1

【如何用人工智能帮你读论文？】这个应用叫 Explainpaper，基于GPT-3模型。尽管这个应用还缺乏中文解释能力，但由于GPT-3本身就能识别中文，所以我传了一篇自己的论文上去测试，发现这个应用是可以用英文解释中文论文的。
大陆资讯
( mp.weixin.qq.com)

3年前 • 微信公众号 • -- 点击 0 评论

17

2

1

1

让 AI Agent 处理 23W 行代码，归根结底就是两点：
1. 记忆：借助文档帮助模型快速了解项目，快速定位，而不必重头开始
- 初始化好 Agents MD 文件
- 各个模块下都有相关文档说明，从 Agents MD 文件可以方便检索到
2. 反馈：让模型可以自己获得反馈
- 通过自动化测试让模型能自己获得反馈
-
IT技术
( twitter.com)

2个月前 • 宝玉 • -- 点击 0 评论

18

2

1

1

B站 BiliBili开源了Index-1.9B模型
Index-1.9B系列是Index系列模型中的轻量版本
1.9B包含：
Index-1.9B base : 基座模型，具有 19亿非词嵌入参数量，在2.8T 中英文为主的语料上预训练，多个评测基准上与同级别模型比处于领先
Index-1.9B pure :
时政
( twitter.com)

1年前 • AIGCLINK • -- 点击 0 评论

19

2

1

1

OpenAI 在2017年用亚马逊网站的用户评论训练了一个模型，本来用于预测用户评论的下一个字符是什么词性或符号。

做好模型后，他们好奇这个模型能否做传统NLP的文本情感分析（判断用户评价正面还是负面）

令人震惊的事情出现了，…
IT技术
( twitter.com)

2年前 • 向阳乔木 • -- 点击 0 评论

20

3

2

2

最新阿里发布的 QWen2-VL-7B 的视觉语言模型有点强⚡️
OCR 能力达到同级开源模型 SOTA 效果！英文基础测试手写字识别准确度 “100%”🤯🤯 而且中文支持还不错！🔥
在线体验 👉
时政
( huggingface.co)

1年前 • Tom Huang • -- 点击 0 评论

21

2

1

1

随着越来越多的模型性能接近GPT-4，几个主要的评测手段都已经无法进行有效区分。
1. MMLU，分数均80+分，已缺乏区分度。
2. MT-Bench，裁判员是GPT-4，能力不足以分辨模型之间的能力差别。
3. Arena
时政
( twitter.com)

1年前 • 九原客 • -- 点击 0 评论

22

2

1

1

怎么写好一个 Prompt？官网的这篇文章写的十分清楚：

GPT 不是一个具有知识理解能力的模型，而是通过对训练数据中的模式进行建模来生成回应；给定一段输入文本，模型会尝试预测下一个…
推特中文圈
( twitter.com)

2年前 • Barret李靖 • -- 点击 0 评论

23

2

1

1

谁在评价大模型？AI大模型评测榜单乱象调查
大陆资讯
( www.jiemian.com)

2年前 • 牛郎侄女 • -- 点击 0 评论

24

2

1

1

可以拿这图去测试各大模型的多模态能力😄
IT技术
( twitter.com)

2年前 • 宝玉 • -- 点击 0 评论

1
2
3
4
5
6
...
400
下一页

0.18044 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特