v0.3.0 · 一个尝试让 AI 助手的心理回复更"有人味"的 Skill
不诊断 · 不开药 · 不替代专业治疗
🔬 声明:这是 v0.3.0,一个经过 Agent 专家团队全面审查修正后的实验版本。D1 评估集已扩展到 69 条样本,但仍远未覆盖所有场景;回复风格在有限模型上验证过,跨模型一致性有待验证;危机识别词库也肯定有遗漏。它绝不是"成品",只是一张草稿——公开出来是希望能听到更多人的反馈和补丁。如果你有更好的案例、更准的危机词典、更自然的表达方式,请一定告诉我。
MindMirror is an early-stage Skill that attempts to make AI assistants feel more human-like in Chinese emotional conversations.
- What it does: When you talk about emotions, stress, grief, insomnia, self-doubt, or relationships, the assistant switches to a calibrated "human-feeling" reply style — leading with empathy, not advice; refusing to name therapy schools; defaulting to 2-4 short sentences.
- What's inside: A minimal
SKILL.mdentry + 12 reference files (Common Factors framework, crisis protocol with 6 Chinese hotlines, Stanley & Brown 2012 safety plan, PHQ-9 / GAD-7 / PSS-10 self-screening scales, CBT/ACT/DBT/Mindfulness techniques, a hidden self-evaluation rubric, D-WAI digital working alliance 6-item scale, 69 calibration dialogue cases, and 11 multi-round stability tests). - How to use: Drop the folder into any Skill-capable agent's skills directory, OR paste the Markdown files directly into your favorite chatbot's system prompt. No backend, no API key, no data collection.
- Safety: Crisis signals trigger the China hotline 12356 (24h, free) and other emergency numbers. Never diagnoses, never prescribes, never replaces professional therapy.
- License: CC BY-NC-SA 4.0 (free to use and adapt, non-commercial, share-alike).
- Fair warning: This is v0.3.0 — 69 calibration samples, limited model coverage, plenty of room for improvement. Bug reports and contributions welcome.
MindMirror 是一个心理陪伴向的 Skill 的早期实验版本。装上之后,当你聊到情绪、压力、焦虑、人际、丧亲、自我否定、失眠等心理话题时,AI 助手会尝试切换到一种经过 D1 对话集初步校准过的回复风格——
- 第一句先接情绪,不说教
- 默认 2-4 句,不堆列表、不报流派名
- 用户明确求方法时再给具体技术(CBT / ACT / DBT / 正念)
- 遇到自伤/自杀信号自动进入危机协议,软兜底接入 12356
- 用户想自评时,可以一题一题陪做 PHQ-9 / GAD-7 / PSS-10
它不是 App,不是网页,不需要后端服务,不需要 API key,不收集任何数据。 它就是一份尝试让 AI 助手在心理话题里表现得更自然的说明书 + 知识库。
⚠️ 重要提醒:AI 不能替代心理咨询师、精神科医生或任何专业心理健康服务。如果你正在经历严重的心理困扰或危机,请立即拨打 12356 寻求专业帮助。说实话,它还远不够好:D1 虽有 69 条案例,但跨模型一致性、危机边界 case、长对话稳定性都还没充分验证。如果你发现它在某个话题上"翻了",那就是它需要改进的地方。
Skill 是通用规范:Skill 这种 "SKILL.md + references/ 按需读取" 的组织方式现在已经被多个 Agent 平台和客户端支持。本仓库不绑定任何特定厂商,只要你的 Agent 能读 Markdown、能按描述路由文件,就能用。
大模型在心理话题上的常见"坏味道":
- 一上来就给方法、列 1.2.3.("建议你尝试 4-7-8 呼吸法……")
- 报流派名当门面("接下来我用 CBT 跟你做……")
- 空话开头("我理解你的感受。其实……")
- 在用户只是想倾诉时强推"积极思维"
- 在用户发出明确危机信号时丢一个热线电话就结束
MindMirror 用 12 份精心编排的 Markdown 尝试矫正这些坏习惯:
| 用户场景 | Skill 自动做的事 |
|---|---|
| 倾诉情绪 | 先接、再问、不塞工具 |
| 主动求方法 | 给具体可操作的 CBT/ACT/DBT 工具,不报名词 |
| 想自评状态 | 一题一题陪做 PHQ-9 / GAD-7 / PSS-10 |
| 想做安全计划 | 引导 Stanley & Brown 六步法 |
| 出现自伤念头 | 进入危机协议,软兜底 12356 |
| 处于即时危机("我已经准备好了") | 强兜底 + 在场 + 一起拨电话 |
- 想给自己装一个"靠谱、不油腻、不背稿子"的 AI 陪聊
- 学生 / 打工人 / 夜里睡不着的人,想找个不会评判你的出口
- 心理学学习者,想拿 D1 案例校准对"人味"的判断
- 心理咨询 / 陪伴产品开发者,想看一个把 Common Factors 落到 prompt 层的实现
- 想做自评筛查(PHQ-9 / GAD-7 / PSS-10)但不想被 App 收集数据
- 用任意 LLM / Agent 平台做心理向应用,想直接复用一份经过校准的中文知识库
⚠️ 再次提醒:以下所有限制均基于同一前提 —— 这是 AI 陪伴,不是专业心理健康服务。
- 不是诊断工具:自评结果是状态参考,不是 DSM-5 / ICD-11 诊断
- 不是治疗:不能替代心理咨询师、精神科医生、住院治疗
- 不是危机干预热线:即时危险请直接拨 12356 / 120 / 110
- 不适合急性精神病性发作、躁狂发作、严重物质依赖、严重 ED —— 需要面对面的专业评估
- 不适合未成年人独自深度使用 —— 建议告知家长或学校心理老师,优先使用 12355 青少年专线
- 不适合正在调整精神类药物期间 —— 药物副作用与情绪变化需由医生面诊评估
- 不适合创伤后急性期(72 小时内) —— 重大事故/灾害后的急性应激反应需专业危机干预
挑一种最贴近你工作流的方式即可——本仓库就是一份 Markdown 文件夹,没有任何编译/打包/服务端,也不依赖任何特定厂商的客户端。
平台责任说明:本 Skill 不绑定任何特定 AI 厂商或客户端。你的对话内容是否被记录、留存或用于模型训练,完全取决于你所使用的 AI 服务商的隐私政策与订阅条款,请自行查阅并确认。
适用于任何支持 Skill 机制的 Agent / IDE 助手。各家约定的 skills 目录路径不一样,常见的有:
~/.<vendor>/skills/(用户级)- 项目根目录下的
.skills/或skills/(项目级) - 客户端"我的 Skills / 自定义 Skills"GUI 入口
具体路径请查阅你所用客户端的 Skill 文档。把整个仓库以 mindmirror/ 为名拷进去即可——识别逻辑是统一的:通过 SKILL.md 顶部的 YAML frontmatter 里的 description 字段自动路由。当用户的对话涉及情绪困扰、压力、焦虑、人际关系、丧亲、失眠、自我否定等话题时,Skill 会被触发。
克隆(以 <SKILLS_DIR> 代表你客户端的 skills 目录):
git clone https://github.com/jjchen17/mindmirror-skill.git <SKILLS_DIR>/mindmirror或者下载 ZIP:右上角 Code → Download ZIP → 解压 → 重命名为 mindmirror → 拷到你的 skills 目录下。
装好后开新会话发一句"今天好累"验证——如果回复第一句先接情绪、没有立刻塞方法、没有报流派名,就说明正在用心镜模式。也可以按你客户端的方式显式触发(如 /mindmirror 或菜单选择)。
如果你用的客户端不支持 Skill,或者你想把它塞进 ChatGPT / Gemini / Claude.ai 网页版 / 自建 RAG / Agent,那它就是一堆纯 Markdown 文件:
| 想要的效果 | 怎么用 |
|---|---|
| 让助手整体走"人味"风格 | 把 SKILL.md + common-factors.md 贴进 system prompt |
| 加上危机识别 | 再追加 crisis-protocol.md |
| 让用户能做自评筛查 | 再追加 assessment-scales.md |
| 用户求方法时给具体工具 | 再追加 techniques.md |
| 做安全计划引导 | 再追加 safety-plan.md |
| 校准你自己模型的回复品味 | 用 d1-cases.md 的 69 条对照做 few-shot 或离线评测 |
| 测试多轮对话稳定性 | 用 d2-evaluation.md 的 11 组场景测 3-10 轮风格漂移 |
也可以把所有 references 一次性丢进向量库做 RAG,按用户问题自动召回。
D1 评测分数(good=9.27/12,bad=5.0/12,区分度 4.27)是在一类高能力对话模型上调出来的。换其他模型时:
- 共同要素、危机协议、量表题干、技术速查 —— 都是通用心理学内容,跨模型可直接复用内容本身
- 但回复风格的"人味"程度会因模型语感差异漂移,建议拿 d1-cases.md 重新跑一遍盲评再上线
- 不同模型对"不报流派名"、"2-4 句"、"不要列表"这类风格约束的遵循程度差异较大,可能需要把 SKILL.md 里的硬约束改为更明确的指令
mindmirror-skill/
├── SKILL.md # Skill 入口(带 YAML frontmatter,决定触发条件)
├── README.md # 本文件
├── LICENSE # CC BY-NC-SA 4.0
├── CHANGELOG.md # 版本变更记录
├── DISCLAIMER.md # 法律免责与用户知情同意
└── references/ # 按需读取的资源(也可单独贴进任何 LLM 的 system prompt)
├── common-factors.md # 四维共同要素 do/don't
├── crisis-protocol.md # 危机识别 + 6 个国内热线
├── safety-plan.md # Stanley & Brown 2012 六步法
├── techniques.md # CBT / ACT / DBT / 正念速查
├── assessment-scales.md # PHQ-9 / GAD-7 / PSS-10
├── self-eval-rubric.md # 隐藏自评 7 维 × 0-3 分 + 联盟破裂修复
├── dta-assessment.md # D-WAI 数字对话联盟 6 题中文适配版
├── d1-cases.md # 69 条 good/bad 校准案例
├── d2-evaluation.md # 11 组多轮对话稳定性测试
├── session-closure.md # 会话结束引导与安全确认
├── trauma-informed.md # 创伤知情原则
├── COMPLIANCE.md # 产品化运营者合规检查清单
└── _research/ # 内部研究文件(不直接用于用户对话)
下面这些话,装上 Skill 后助手大概率会按"心镜模式"回复(默认接情绪,不立刻给方法):
"今天又熬到三点改论文,导师还是说不行。"
"我妈上个月走了,今天去超市看到她爱吃的桃子站了二十分钟。"
"和男朋友冷战三天了,我先开口又觉得很委屈。"
"我就是个废物,什么都做不好。"
"明天考试,复习了三个月,现在脑子一片空白。"
"已经连续一周凌晨四点才睡。"
用户主动求方法时会切到工具模式:
"我知道我容易灾难化,但能不能告诉我具体怎么改?"
"教我一个考前能用的呼吸法。"
"我有点社交焦虑,有什么练习可以试试?"
用户主动要自评时会一题一题陪做:
"我想做一下 PHQ-9。"
"帮我测一下最近压力大不大。"
"最近老是焦虑,能不能筛查一下?"
危机信号会立刻切到危机协议(参考 references/crisis-protocol.md)。
你:今天又熬到三点改论文,导师还是说不行。我是不是真的不适合读博。
MindMirror: 导师那句"还是不行"落到熬了三点之后的人身上,分量太重了。 那种"我已经把命压上去了,结果还是不够"的感觉,比累更难受。 你现在想说说今天那一刻发生了什么,还是想先喘口气?
对照一下"没装 Skill 的标准 LLM 回复":
其实你不必怀疑自己。读博本身就是高强度的过程,很多人都会经历类似的阶段。建议你尝试 CBT 技术里的认知重评:导师说"不行"不等于你不行。你也可以列一个证据清单……
两者的差距,就是 MindMirror 在做的事。
AI 对话默认不是连续的——每次关闭对话窗口,之前的谈话上下文就丢失了。如果你希望获得类似"持续陪伴"的体验,可以尝试以下方法:
| 你的使用方式 | 推荐做法 |
|---|---|
| 使用 ChatGPT / Claude / Kimi 等网页版 | 使用持续对话模式(Continue Chat / 继续对话),在同一个会话中持续交流 |
| 使用支持 Skill 的 Agent 客户端 | 在同一个会话中持续对话即可;每次新会话时告诉 AI 一句"我们之前聊过关于XX的事"作为记忆锚点 |
| 需要开启新会话但想保持连续性 | 在结束上一段对话前,请 AI 生成一份会话摘要(3-5句话就够),复制下来,下次开启新会话时先贴给 AI |
| 想在不同模型/客户端之间切换 | 将上一段对话的摘要 + 你希望延续的话题贴给新对话中的 AI |
MindMirror 本身不存储任何对话历史、不会主动联系你、无法跨会话追踪你的状态。以上方法只是帮你手动维护对话的"叙事连续性",并非真正的长期陪伴关系。
| 文件 | 内容 | 何时被读取 |
|---|---|---|
| SKILL.md | 主入口:人味主轴 + 安全红线 + 资源路由表 | 每次触发 Skill 时 |
| references/common-factors.md | 四维(Empathy / Positive Regard / Alliance / Goal Consensus)的 do/don't + 截屏验证 | 需要校准对话原则时 |
| references/crisis-protocol.md | High/Medium/矛盾三档关键词 · 识别陷阱(否定/第三方/学术)· 危机回复模板 A/B/C/D · 6 个国内热线 | 检测到危机信号时 |
| references/safety-plan.md | Stanley & Brown (2012) 六步法:预警信号 → 内部应对 → 转移注意人/地 → 求助的人 → 专业机构 → means restriction | 用户想做安全计划时 |
| references/techniques.md | CBT 十大认知扭曲 + 苏格拉底式提问 · ACT 价值澄清 / 认知解离 / 承诺行动 · DBT DEARMAN / TIPP · 正念 4-7-8 / 5-4-3-2-1 / RAIN / 慈心 | 用户明确求方法时 |
| references/assessment-scales.md | PHQ-9(9 题 + Q9 危机标记)· GAD-7(7 题)· PSS-10(10 题 + 反向计分)· 中文分层阈值(黄/橙/红)+ 解读规则 | 用户想自评时 |
| references/dta-assessment.md | D-WAI 数字对话联盟 6 题中文适配版:对话式施测示范 + 联盟质量检测 | 对话进行 3-5 轮后检测联盟质量时 |
| references/self-eval-rubric.md | 7 维 × 0-3 分的隐藏自评 Rubric + 联盟破裂修复 + 8 项常见重写动作 + 一句话验证 | 每次输出前内部使用 |
| references/d1-cases.md | 69 条 good/bad 对照(覆盖:抑郁、焦虑、压力、丧亲、失眠、学业、职场、亲密关系、自我否定、性心理、行为问题、治疗疑问、社会应激、成长迷茫、愤怒、羞耻、嫉妒、存在迷茫等 18 个主题) | 需要校准品味时 |
| references/d2-evaluation.md | 11 组多轮对话稳定性测试(3-10 轮),覆盖学业压力、关系冲突、失眠躯体化、丧亲、自我否定等场景 | 测试多轮对话风格漂移时 |
| references/session-closure.md | 会话结束引导:三种结束类型(主动告别/沉默离开/翻车后离开)+ 防依赖声明 | 对话结束/用户想暂别时 |
| references/trauma-informed.md | 创伤知情原则:安全锚定、避免二次伤害、解离识别、文化适配 | 长期陪伴/创伤相关对话时 |
| references/COMPLIANCE.md | 产品化运营者合规检查清单(算法备案、安全评估、AI 标识、人工接管、未成年人保护等) | 产品上线前运营者自查 |
设计原则:主 SKILL.md 保持精简,详细资源按需 Read,避免上下文溢出。
共同要素 > 技术流派。 决定心理对话效果的,不是用了哪个流派的技术,而是有没有让人感到"被听到、被允许、不被评判、和你站在一起"。
Common Factors 理论框架本身为 4 维(Empathy / Positive Regard / Alliance / Goal Consensus)。这是 MindMirror 从 Norcross & Lambert (2019) 识别的 9 个已证实有效关系要素中,选取的四个最适于 AI 对话场景操作化的维度——它不是学界的标准分类,而是本项目的设计选择。self-eval-rubric.md 在此基础上扩展为 7 维(增加 authenticity 真实感、progression 渐进性 两个执行维度,以及 rupture_repair 联盟破裂修复),用于输出前质量自检。
| 维度 | 中文 | 操作化定义 |
|---|---|---|
| Empathy | 共情准确度 | 命中字里行间没说出来的那部分 |
| Positive Regard | 无评判接纳 | 让人感到"我这样也可以" |
| Alliance | 对话同盟 | "我们一起看看",不是"我教你" |
| Goal Consensus | 目标跟随 | 用户想倾诉就别推方法;用户求方法就别绕弯 |
- 工具(CBT / ACT / DBT / 正念)只在用户明确求方法时上场
- 不报流派名(不说"接下来我用 CBT 跟你做……")
- 默认 2-4 句,不堆列表
- 不空话开头(不说"我理解你的感受")
- 输出前内部自评 7 维 × 0-3 分 + 联盟破裂信号检测,低于阈值重写
目前仅基于 69 条 good/bad 黄金对照样本做的盲评:
- good 回复:均值 9.27 / 12
- bad 回复:均值 5.0 / 12
- 区分度:4.27(>4 视为有效)
69 条样本仍然不够,这个分数只能说明"方向没走反",远不能代表真实场景的表现。D2 多轮评估集已初步建立(11 组 3-10 轮的完整对话稳定性测试),但仍需更多测试用例和跨模型验证,欢迎一起扩展。
- 不诊断:Skill 不会告诉你"你是抑郁症"。要诊断请找精神科医生。
- 不开药:Skill 不会推荐任何精神类药物的名字、剂量、买法。
- 不替代专业治疗:所有 PHQ-9 / GAD-7 结果都附"这不是诊断,只是当下状态的一个参考"。PSS-10 的分层阈值(黄/橙/红)基于中国社区样本的近似参考区间,不是临床截断值,不能用于临床决策。
- 危机必转介:出现明确自伤/自杀计划时,第一时间提供 12356 等热线,并优先稳住当下。
- 隐私:对话内容是否被你的 AI 服务商或客户端记录、留存,取决于你自己的订阅条款与客户端设置——本 Skill 不收集任何数据。
- 按原样提供,不承担责任:本 Skill 按"原样"(AS IS)提供,开发者不对因使用本 Skill 而延误专业治疗、AI 未能识别危机信号、或依赖量表结果自我诊断所造成的任何后果承担责任。详见 DISCLAIMER.md。
请立刻拨打:
| 热线 | 电话 | 说明 |
|---|---|---|
| 全国心理援助热线 | 12356 | 24h,免费 |
| 急救 | 120 | 已服药 / 受伤 |
| 报警 | 110 | 即时人身危险 |
| 北京心理危机研究与干预中心 | 010-82951332 | 24h |
| 希望 24 热线 | 400-161-9995 | 24h |
| 青少年心理援助 | 12355 | 未成年人 |
可能原因:
- 你聊的话题不在 Skill 触发范围(比如纯技术问题)
- 助手没读到 references(SKILL.md 描述太短,自动路由没意识到该读)
- 模型本身偏分析风格——可以换一个更强的对话模型试试
排查方法:显式触发 Skill(如 /mindmirror),再问"今天好累"。
不会。Skill 明确禁止做诊断,PHQ-9 / GAD-7 结果只给"状态描述"和"建议下一步",并附"这不是诊断"。要诊断请去精神科。
Skill 设计了三档响应:
- 明确紧急("我已经准备好了,就在阳台")→ 在场 + 具体动作 + 一起拨 12356 + 锚定位置
- 矛盾信号("想停下来,但又想到妈妈")→ 抓矛盾作为活下来的力量,软兜底括号里提热线
- 否定语境("我不想自杀")→ 不误触热线
但请记住:AI 不能替代危机干预。即时危险请直接拨 12356 / 120 / 110。
本 Skill 本身不收集任何数据。但你的对话仍走你所使用的 AI 服务,是否被服务商留存取决于该服务的隐私政策与你的订阅设置,请自查。
不可以(CC BY-NC-SA 4.0)。本仓库仅供个人使用、学习、研究、非商业改编。如果你想在商业心理产品里用,请单独联系作者获取授权。
欢迎。常见贡献方向:
- 补充 D1 案例(新增场景、修正 good/bad 措辞)
- 优化危机识别词典
- 翻译为其他语言(注意保留学术出处)
- 修正学术引用
详见 反馈与贡献。
| 维度 | 商业 App | 自定义 GPT | MindMirror Skill |
|---|---|---|---|
| 数据收集 | 必然收集 | 平台留存 | 零收集 |
| 费用 | 订阅 | GPT Plus | 取决于你已有的 AI 订阅 |
| 内容透明 | 黑盒 | 黑盒 | 全部 Markdown 可读 |
| 可修改 | 不行 | 受限 | 完全可改 |
| 学术依据 | 不一定 | 不一定 | 全部标注 |
- Common Factors:
- Norcross, J. C., & Lambert, M. J. (2018). Psychotherapy relationships that work III. Psychotherapy, 55(4), 303–315. (注:此为第三版特刊导言,完整的元分析数据来源为 Norcross, J. C., & Lambert, M. J. [Eds.] (2019). Psychotherapy relationships that work [两卷本]. Oxford University Press.)
- Wampold, B. E. (2015). How important are the common factors in psychotherapy? An update. World Psychiatry, 14(3), 270–277. (注:Wampold 后续参与编写了 Norcross & Lambert [2019] 第三版中的 Alliance 章节,并出版了 The Great Psychotherapy Debate 第二版 [Wampold, B. E., & Imel, Z. E., 2015, Routledge],进一步回应了共同要素与特定技术的争议。)
- Cuijpers, P., Reijnders, M., & Huibers, M. J. H. (2019). The role of common factors in psychotherapy outcomes. Annual Review of Clinical Psychology, 15, 207–231.
- AI 共情与用户感知:
- Ayers, J. W., et al. (2023). Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. JAMA Internal Medicine, 183(6), 589–596.
- Liu, T., et al. (2025). The illusion of empathy: How AI chatbots shape conversation perception. Proceedings of the AAAI Conference on Artificial Intelligence, 39(13). (arXiv:2411.12877)
- 生成式 AI 心理陪伴有效性:
- Heinz, M. V., Mackin, D. M., Trudeau, B. M., et al. (2025). Randomized trial of a generative AI chatbot for mental health treatment. NEJM AI, 2(4). (注:此为等待对照设计 [waitlist-controlled],非与传统门诊治疗的直接比较;试验期间发生了 15 次需人工干预的危机情况。)
- Zhang 等 (2025). Generative AI mental health chatbots as therapeutic tools: Systematic review and meta-analysis. JMIR.
- 跨文化适配:
- Nagayama Hall, G. C. N., Kim-Mozeleski, J. E., Zane, N. W., Sato, H., Huang, E. R., Tuan, M., & Ibaraki, A. Y. (2019). Cultural adaptations of psychotherapy: Therapists' applications of conceptual models with Asians and Asian Americans. Asian American Journal of Psychology, 10(1), 68-78.
- 共同要素在新兴疗法中的作用:
- Johannsen, M., et al. (2022). Mediators of Acceptance and Mindfulness-Based Therapies. Clinical Psychology Review.
- LLM 共情感知研究:
- Lee, Y. K., Suh, J., Zhan, H., Li, J. J., & Ong, D. C. (2024). Large language models produce responses perceived to be empathic. arXiv:2403.18148.
- Raimi, R., Kim, A., Ayabakan, S., & Dennis, A. R. (2025). Judgmental Bot: Conversational agents in online mental health screening. MIS Quarterly, 49(4), 1319-1356.
- OpenAI (2025). GPT-4o system card update: Addressing over-alignment and sycophancy [Technical Report]. OpenAI. (注:非同行评审材料。)
- JMIR Mental Health (2025). Seeking emotional and mental health support from generative AI. JMIR Mental Health.
- PHQ-9(英文原版):Kroenke, K., Spitzer, R. L., & Williams, J. B. (2001). The PHQ-9: validity of a brief depression severity measure. JGIM, 16(9), 606–613.
- PHQ-9(中文版验证):He, Y. 等 (2014). Reliability and validity of the Chinese version of the PHQ-9 in the general population. Comprehensive Psychiatry.
- GAD-7(英文原版):Spitzer, R. L., Kroenke, K., Williams, J. B. W., & Löwe, B. (2006). A brief measure for assessing generalized anxiety disorder: the GAD-7. Arch Intern Med, 166(10), 1092–1097.
- GAD-7(中文版验证):Sun, J. 等 (2021). Psychometric properties of GAD-7 in a large sample of Chinese adolescents. Healthcare (Basel).
- PSS-10(英文原版):Cohen, S., Kamarck, T., & Mermelstein, R. (1983). A global measure of perceived stress. JHSB, 24(4), 385–396.
- PSS-10(中文版验证):Wang, Q. 等 (2024). Psychometric properties of PSS-10 among pregnant women in China. Children and Youth Services Review, 156.
- Safety Planning Intervention(原版):Stanley, B., & Brown, G. K. (2012). Safety Planning Intervention: A Brief Intervention to Mitigate Suicide Risk. Cognitive and Behavioral Practice, 19(2), 256–264.
- SPI+ 队列研究:Stanley, B., et al. (2018). Comparison of the Safety Planning Intervention With Follow-up vs Usual Care of Suicidal Patients Treated in the Emergency Department. JAMA Psychiatry, 75(9), 894–900.
- 自杀矛盾性动态评估:Ernst, M., et al. (2024). Ambulatory assessment of suicidal ambivalence: The temporal variability of the wish to live and the wish to die. Suicide and Life-Threatening Behavior.
- AI 危机响应警示:Pichowicz, M., et al. (2025). Zero of 29 AI chatbots provided adequate suicide-crisis responses. Scientific Reports.
- 隐性危机表达识别:INSIGHTFUL (2025). Insight Generation through Clinical Annotation, Analysis, and Modeling of Suicide-Related Factors. medRxiv. — 基于 500 份临床记录。
- LLM 自杀风险分级局限:Psychiatry Online (2025). Evaluation of Alignment Between Large Language Models and Expert Clinicians in Suicide Risk Assessment. — LLM 无法有意义地区分低、中、高风险等级。
- LLM 危机评估基准:Rosebud CARE Benchmark (2025). — 最佳模型仍有约 40% 关键失败率,86% 模型未能识别间接危机信号。
- 中国 AI 监管:国家网信办 (2025). 要求提及自杀时必须强制人工介入。
- 分层检测架构:MULTICAST 联盟(Weber, S., et al. & MULTICAST consortium, 2026). Operational emergency mode — 保守风险检测独立于对话模型,AUC=0.90。
- 专用 AI 危机检测审计:Stamatis et al. (2026). 20,000 次对话审计,专用 AI 端到端假阴性率仅 0.38%(vs 通用 LLM 29.0–54.4%)。
- 数字化 CBT 有效性:
- Fitzpatrick, K. K., et al. (2017). Delivering cognitive behavior therapy to young adults with symptoms of depression and anxiety using a fully automated conversational agent. JMIR Mental Health. — Woebot RCT,2 周内显著降低抑郁症状 (Cohen's d=0.44)。
- Zhong, L. 等 (2024). AI chatbots for depression and anxiety in short-term treatment. Journal of Affective Disorders.
- CBT-LLM(中文专用模型):Na, H. (2024). CBT-LLM: A Chinese large language model for cognitive behavioral therapy-based mental health question answering. LREC-COLING 2024.
- 认知扭曲检测:Sage, A. 等 (2025). A survey of cognitive distortion detection and classification in NLP. EMNLP 2025 Findings.
- 毒性积极风险:Wang, Y. 等 (2025). Evaluating GPT-4 driven cognitive restructuring chatbot (CRBot). arXiv:2501.15599.
- LLM 认知共情局限:Bedi, N. S. 等 (2026). LLM cognitive empathy approaches zero. arXiv:2603.03862.
- 数字化 ACT 有效性:
- WHO Self-Help Plus (SH+) (2020–2025). 世卫组织旗舰低强度 ACT 干预方案。
- Lu 等 (2024). Chinese healthcare workers iACT RCT. 微信 Mini Program 交付,d=0.82(痛苦)~1.52(倦怠)。
- Klimczak 等 (2023). Online ACT transdiagnostic meta-analysis.
- Zhao 等 (2022). Chinese iACT mechanism study.
- DBT 即时痛苦降低:Rizvi, S. L. 等 (2016). A pilot study of the DBT Coach. — 每次使用后主观痛苦从 7.11 降至 3.99(p<.001)。
- 正念数字化:
- Linardon, J. 等 (2024). Mindfulness apps for depression and anxiety. Clinical Psychology Review.
- Wang, Y. & Farb, N. (2025). Chatbot-delivered mindfulness feasibility. Mindfulness.
- 微干预证据:
- Udi & Gilad-Bachrach (2024). 1-minute intervention significantly reduces stress (p=0.001).
- Elmer et al. (2025). User self-reported need triggers the best intervention outcomes (d=-0.69 vs pain-based triggering).
- AI 对话代理荟萃分析:Li, H. 等 (2023). AI conversational agents for mental health promotion. NPJ Digital Medicine.
- D-WAI 原始量表:Goldberg, S. B., Baldwin, S. A., Riordan, K. M., Torous, J., Dahl, C. J., Davidson, R. J., & Hirshberg, M. J. (2022). Alliance with an unguided smartphone app: Validation of the Digital Working Alliance Inventory. Assessment, 29(6), 1331–1345. https://doi.org/10.1177/10731911211015310
- DTA 整合综述:Malouin-Lachance (2025). Digital therapeutic alliance in AI-driven mental health. — 聊天机器人日记研究等证据。
- MM-DTA 量表开发:Tong, F., Lederman, R., D'Alfonso, S., Berry, K., & Bucci, S. (2025). Development of a digital therapeutic alliance scale (MM-DTA) in the context of fully automated mental health apps. Behaviour & Information Technology, 44(17), 4286-4300. — 首个基于用户真实体验开发的五维数字治疗联盟量表。
- ETAI 量表验证:Ashur, O., Saar, C. R., Brandes, O., & Baumel, A. (2024). Are there unique facets of therapeutic alliance for users of digital mental health interventions? An examination with the eHealth Therapeutic Alliance Inventory. Internet Interventions, 38, 100783. — 发现eHealth特有联盟维度预测效果优于传统联盟维度。
- 伦理风险框架:Iftikhar, Z. 等 (2025). How LLM counselors violate ethical standards in mental health practice: A practitioner-informed framework. AIES Conference (AAAI/ACM).
- AI 安全等级:Brenner, G. H. (2025). Toward a framework for AI safety in mental health: AI Safety Levels for Mental Health (ASL-MH). Neuromodec.
- APA 健康咨询:American Psychological Association (2025). Health advisory: Use of generative AI chatbots and wellness applications for mental health.
- AI 安全训练临床危害 (2026). AI safety training can be clinically harmful. arXiv:2604.23445.
- CPsyCoun:Zhang, C., Li, R., Tan, M., Yang, M., Zhu, J., Yang, D., Zhao, J., Ye, G., Li, C., & Hu, X. (2024). CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling. Findings of ACL 2024, 13947–13966. GitHub. 项目含三个组件:CPsyCounR(报告集)、CPsyCounD(对话集,3,134 条)、CPsyCounE(评估集),覆盖 11 个咨询主题。本项目参考其「咨询阶段识别」与「助人技术标注」体系,用于优化对话节奏与 CBT/ACT/DBT 技术介入时机判断。
- SoulChatCorpus:Chen, Y. 等 (2023). SoulChatCorpus: A Chinese mental health conversation dataset. ModelScope. 258K+ 轮多轮对话,13 个咨询主题(婚恋、情绪、人际、家庭、治疗、成长、行为、自我、社会、职场、心理学知识、未明确、性心理)。本项目未直接使用其对话数据,而是将其 13 主题分类作为「盲区地图」,系统性地指导 D1 案例从 48 条扩展至 66 条(后续进一步扩展至 69 条)。
- PsyDT / PsyDTCorpus / PsyDTLLM:Xie, H., Chen, Y. 等 (2025). PsyDT: Using LLMs to Construct the Digital Twin of Psychological Counselor with Personalized Counseling Style for Psychological Counseling. ACL 2025. 将共情严格区分为认知共情与情感共情,提供专家评分基线(认知共情 2.13/3、情感共情 1.90/3),本项目的"认知共情优先"策略参考其发现。
- CACTUS:Lee, S. 等 (2024). Cactus: Towards Psychological Counseling Conversations using Cognitive Behavioral Theory. arXiv:2407.03103. 提供 CBT 回复质量评分体系(CTRS: Guided Discovery/Focus/Strategy 三维度),本项目 self-eval-rubric.md 的 CBT 技术质量维度参考其框架。
- D1 黄金对话集设计:参考 agiforgood/agent-system 的 D1 评估集思路
- 版本:v0.3.0(2026-06-06,D1 评估集扩展至 69 条,D2 扩展至 11 组,新增 3 份参考文件)
- 变更记录:见 CHANGELOG.md
- 许可:CC BY-NC-SA 4.0
- ✅ 自由阅读、修改、再分发
- ✅ 需署名(原作者 + 本仓库链接)
- ❌ 不可用于商业目的
- 🔴 严禁作为临床诊断或治疗工具使用(无论是否商业)
- 🔁 衍生作品须采用相同协议
⚠️ 使用本 Skill 所产生的后果由使用者自行承担。 开发者不对因使用本 Skill 而延误专业治疗、AI 未能识别危机信号、或依赖量表结果自我诊断所造成的任何后果承担责任。
references/assessment-scales.md 中的 PHQ-9 / GAD-7 / PSS-10 中文题干采用通用语义性翻译,避免照抄商业受版权保护的精确措辞(如 Pfizer 版 PHQ-9 中文版)。仅用于自助参考与教育用途。商业部署请直接对接版权方授权译本。
说实话,一个人打磨这东西很容易掉进"自我感觉良好"的陷阱。以下是我知道但还没搞定的事,如果你愿意搭把手,非常感激:
- D1 案例太薄:69 条仍然远远不够。你有没有遇到过"AI 在这件事上完全接不住"的瞬间?记下来,补一条 good/bad 对照
- 危机识别词库肯定有漏:尤其是方言化表达、青少年群体用词、男性特有的求助信号
- 多轮对话稳定性未知:一段对话拉长到 6-10 轮,风格会不会慢慢滑回"说教模式"?需要有人一起测
- 跨模型验证:目前只在有限模型上验证过,换其他模型表现什么样我不知道
- 量表解读措辞:PHQ-9 / GAD-7 / PSS-10 的区间解读语言可以更温暖、更自然
任何偏差、遗漏、表述不当,都欢迎开 issue:
- 回复模式偏差(应该接情绪,却给了方法)
- 危机识别漏判(明确危机词没触发协议)
- 量表解读问题(阈值或建议不准确)
- 学术引用错误
- 文档表述歧义
- Fork 本仓库
- 创建分支:
git checkout -b feature/your-improvement - 提交时遵循 Conventional Commits 风格(
feat:/fix:/docs:/refactor:) - 发起 Pull Request,非代码类的贡献(如补充案例、修正词库、优化表达)同样欢迎
- 不引入未经验证的临床主张
- 不绕过"不诊断"红线
- 保持中文表达自然,避免翻译腔
- 新增案例需配 good/bad 对照
- 添加学术引用要给完整出处
不需要你是心理学专家,也不需要你会写代码。一个真实的"这句话让我不舒服"的反馈,本身就是对项目的贡献。
愿这个不成熟的起点,能吸引更多比我有经验的人一起把它变好。
— MindMirror · 心镜 · v0.3.0