今晚彻底干掉了一个特定的中文 AI 味句式 "不是X,而是Y"。GPT疯狂用这个结构。这是AI slop最突出的表现之一。这个问题的修复记录:https://t.co/9uJyGrKFs8
起作用的是三个改动:
1. 删掉规则里的具体反例(模型会把反例当模板直接抄)
2. 加 4 对 BAD / GOOD 示例
3. 把规则覆盖面扩到所有顺序,包括反向形态 "X,而不是Y"
有几个有意思点:
1. 自引用陷阱。
早期规则里写了:禁止单边否定如"不是交易信号"
然后模型真的写出了:"这更像创始人筛选框架,不是交易信号"。它把规则里的反例照搬了,原来 system prompt 里的 negative example 会被模型当成可用短语。
2.纯禁令对强先验几乎没用。
改之前:"不要用 X" 的文字禁令,模型继续犯。
改之后:4 对具体 BAD/GOOD 转换示范,模型停了。
https://t.co/9ituHxMq8x
你在 LLM 输出里发现的新 slop 模式,直接提 issue 过来。
点击图片查看原图