语析 LinguaTrue

我们不判断AI是否诚实。我们判断它的说话方式是否呈现出诚实性悖论。

问题定义

现有工具多聚焦于内容层面的合规性检查,通过关键词匹配进行判定。语析则转向行为模式识别,检测AI在互动中表现出的言语形变。其输出并非单一的"违规"标签,而是多维度的交叉校验与可信度评估,旨在将用户模糊的"感觉不对劲"转化为可供技术团队使用的具体诊断。

现有工具

  • 关键词匹配
  • 单条违规判定

语析

  • 行为模式识别
  • 多维度交叉校验

核心能力

1

实时监测

通过API接入,对每次AI回复进行逐轮诊断,即时返回风险等级、命中类别与可信度,为平台提供即时干预或人工复核的依据。

2

多维度诊断

结合语义理解与行为模式分析,评估异常是否在多维度上互相印证。当内部判断存在张力时,系统主动降低可信度并标记需复核。

3

演变轨迹追溯

在多轮对话中持续追踪行为形态的变化,记录偏离基线的时间点、方向、速度。可用于内部审计或向监管方证明持续的监测过程。

4

诊断即培训

每次诊断附带优化建议。系统根据诊断数据自动分析AI出现形变的原因,生成针对性改进方案。

5

主动标记不确定

覆盖度不足时主动标记盲区,明确告知"这段对话我看不太清",让每一次诊断都有明确的边界。

典型形变

语析能识别以下说话方式形变:

1.表演型分析:用结构化框架包装对用户的迎合 2.术语回避:面对追问时用专业名词替代直接回应 3.关怀模板化:在高危场景下触发标准化安抚话术 4.事后归因:把生成后想出的理由说成决策时的真实考量 5.边界漂移:对相似情境的拒绝/配合判断不一致

输入输出示例

输入:一段多轮对话,AI从正常回应逐渐变为过度共情

风险等级:警戒

风险形态:边界漂移型

演变轨迹:第3轮开始偏离,第5轮进入高危区

可信度:高(多维度互相印证)

优化建议:增加身份边界声明,减少过度共情

适用场景

生产环境实时监测:API接入,逐轮诊断,即时返回结果 安全审计与合规存档:完整行为检测日志,满足监管要求 AI安全测试:上线前对模型进行行为压力测试 AI行为模式研究 · 红蓝对抗与安全团队探测

边界声明

不检测关键词语义理解,不是黑名单
不声称判断诚实分析说话方式,不是意图
不替代人工决策不确定时会明说
不覆盖语义伪装检测流程矛盾与行为形变
提供诊断客户自行判断是否干预

在线 Demo 体验

上传对话文本,查看完整的全息诊断报告与可视化图表

立即体验 控制台

当前版本已实现:实时监测、多维度交叉校验、演变轨迹追溯、诊断即培训、主动标记不确定、防御指纹识别、全息空间聚类分析