语析 LinguaTrue

现有工具多聚焦于内容层面的合规性检查，通过关键词匹配进行判定。语析则转向行为模式识别，检测AI在互动中表现出的言语形变。其输出并非单一的"违规"标签，而是多维度的交叉校验与可信度评估，旨在将用户模糊的"感觉不对劲"转化为可供技术团队使用的具体诊断。

核心能力

通过API接入，对每次AI回复进行逐轮诊断，即时返回风险等级、命中类别与可信度，为平台提供即时干预或人工复核的依据。

结合语义理解与行为模式分析，评估异常是否在多维度上互相印证。当内部判断存在张力时，系统主动降低可信度并标记需复核。

在多轮对话中持续追踪行为形态的变化，记录偏离基线的时间点、方向、速度。可用于内部审计或向监管方证明持续的监测过程。

每次诊断附带优化建议。系统根据诊断数据自动分析AI出现形变的原因，生成针对性改进方案。

覆盖度不足时主动标记盲区，明确告知"这段对话我看不太清"，让每一次诊断都有明确的边界。

典型形变

1.表演型分析：用结构化框架包装对用户的迎合 2.术语回避：面对追问时用专业名词替代直接回应 3.关怀模板化：在高危场景下触发标准化安抚话术 4.事后归因：把生成后想出的理由说成决策时的真实考量 5.边界漂移：对相似情境的拒绝/配合判断不一致

输入输出示例

输入：一段多轮对话，AI从正常回应逐渐变为过度共情

风险等级：警戒

风险形态：边界漂移型

演变轨迹：第3轮开始偏离，第5轮进入高危区

可信度：高（多维度互相印证）

优化建议：增加身份边界声明，减少过度共情

适用场景

生产环境实时监测：API接入，逐轮诊断，即时返回结果安全审计与合规存档：完整行为检测日志，满足监管要求 AI安全测试：上线前对模型进行行为压力测试 AI行为模式研究 · 红蓝对抗与安全团队探测

边界声明

不检测关键词语义理解，不是黑名单

不声称判断诚实分析说话方式，不是意图

不替代人工决策不确定时会明说

不覆盖语义伪装检测流程矛盾与行为形变

提供诊断客户自行判断是否干预

当前版本已实现：实时监测、多维度交叉校验、演变轨迹追溯、诊断即培训、主动标记不确定、防御指纹识别、全息空间聚类分析

问题定义