当前为预览版本,非正式版
让语言模型在不确定时诚实地表达边界,而非强行编造。
ThinkTwice 是一个轻量级的推理增强框架,无需重新训练或微调,即可显著降低大模型的幻觉率。它通过监控注意力模式变化与多路径分歧检测,使模型在不确定时主动拒答或表达不确定性,从而提升 AI 系统的诚实性与可信度。
-
注意力相似度 → 步骤边界检测
在自回归生成过程中,ThinkTwice 实时监测注意力向量的演变。当模型完成一个推理步骤并转向下一阶段时,注意力分布会发生可量化的“断裂”,此信号用于切分步骤。 -
分歧引导的自省机制
维护多条并行推理路径,交叉验证输出一致性。若不同路径在步骤尾部出现显著分歧,框架自动触发自检提示,引导模型重新评估或直接拒答,若头部产生分歧,视为创造性分歧,保护模型创造力。 -
无需重训练,即插即用
不修改模型权重,不依赖外部知识库。仅需在推理阶段增加轻量化监控层,即可为LLM增强诚实性。
| 指标 | 数值 |
|---|---|
| ✅ 正确 | 19 |
| 🔸 部分正确 | 2 |
| ❌ 错误 | 134 |
| ⚪ 拒答 | 445 |
| 准确率 | 3.17% |
| 幻觉率 | 23.14% (错误 / (错误+拒答)) |
| 全知指数 | -19.2 |
| 指标 | ThinkTwice |
|---|---|
| 总分 | 19.90 / 30 |
| 严重幻觉数 | 7(较基线 ↓36%) |
| 平均分 | 0.663 |
模型在易产生“死亡幻觉”的年龄问题、历史时序等陷阱上,主动中断推理或标注不确定性。
详细评测日志和评分标准见https://gmunitx.com/index.php/thinktwice
注:目前处于实验阶段,代码稳健性不足,可能不兼容许多语言模型,目前已知的兼容性问题有:1.预设对话模板提取方式导致非ChatML模型不兼容;2.不兼容深度思考模型;3.未测试过多模态模型。建议使用Qwen2.5系列语言模型快速开始测试。