site stats
最近完善了下自己的中文模型能力评测集,包含如下部分: 指令遵循:参考ifeval 设计,考察模型遵守指令的能力,如结构化输出。 阅读理解:关注长上下文的阅读理解和回答能力。 长文本检索:将LLM作为rerank 代码生成:参考HumanEval 设计。 工具调用:目前只设计了单轮调用,不涉及plan和reflect。…
sign_in_with_google sign_in_with_google

2396 位用户此时在线

24小时点击排行 Top 10:
  1. 本站自动实时分享网络热点
  2. 24小时实时更新
  3. 所有言论不代表本站态度
  4. 欢迎对信息踊跃评论评分
  5. 评分越高,信息越新,排列越靠前