中文互联网公开可爬的高价值内容本来就少,再加上各种审查过滤、敏感词替换、和谐后留下的空洞表达、AI泔水内容泛滥(模型自己生成的内容再喂回去,质量像近亲繁殖),导致训练语料的“信息密度”和多样性严重不足。
模型在中文复杂推理、长上下文连贯性、幽默感、尖锐吐槽、边缘话题上普遍拉胯,输出要么太“安全”要么太“模板化”。
很多开放讨论、真实人类极端观点、多角度争论、黑色幽默、亚文化梗、政治不正确但逻辑自洽的内容,要么被删,要么压根没产生,要么产生了也进不了语料池。
现在墙内很多所谓“下一代模型”其实已经大量用自己或同胞模型生成的“干净数据”来继续训练,越滚雪球越像在吃自己屎。
中国AI就是把安全的大便不断提纯。
😎 匿名投稿
点击图片查看原图