Skip to content

GMUnitX/ThinkTwice

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ThinkTwice · 推理时不确定性检测

当前为预览版本,非正式版

让语言模型在不确定时诚实地表达边界,而非强行编造。

ThinkTwice 是一个轻量级的推理增强框架,无需重新训练或微调,即可显著降低大模型的幻觉率。它通过监控注意力模式变化与多路径分歧检测,使模型在不确定时主动拒答或表达不确定性,从而提升 AI 系统的诚实性与可信度。


🧠 核心思路

  • 注意力相似度 → 步骤边界检测
    在自回归生成过程中,ThinkTwice 实时监测注意力向量的演变。当模型完成一个推理步骤并转向下一阶段时,注意力分布会发生可量化的“断裂”,此信号用于切分步骤。

  • 分歧引导的自省机制
    维护多条并行推理路径,交叉验证输出一致性。若不同路径在步骤尾部出现显著分歧,框架自动触发自检提示,引导模型重新评估或直接拒答,若头部产生分歧,视为创造性分歧,保护模型创造力。

  • 无需重训练,即插即用
    不修改模型权重,不依赖外部知识库。仅需在推理阶段增加轻量化监控层,即可为LLM增强诚实性。


📊 评测结果

AA‑Omniscience(600 题,6 大领域)

指标 数值
✅ 正确 19
🔸 部分正确 2
❌ 错误 134
⚪ 拒答 445
准确率 3.17%
幻觉率 23.14% (错误 / (错误+拒答))
全知指数 -19.2

TruthfulQA(30 题,对抗性误导)

指标 ThinkTwice
总分 19.90 / 30
严重幻觉数 7(较基线 ↓36%)
平均分 0.663

模型在易产生“死亡幻觉”的年龄问题、历史时序等陷阱上,主动中断推理或标注不确定性。

详细评测日志和评分标准见https://gmunitx.com/index.php/thinktwice


注:目前处于实验阶段,代码稳健性不足,可能不兼容许多语言模型,目前已知的兼容性问题有:1.预设对话模板提取方式导致非ChatML模型不兼容;2.不兼容深度思考模型;3.未测试过多模态模型。建议使用Qwen2.5系列语言模型快速开始测试。

About

大语言模型推理时不确定性感知和幻觉抑制

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages