本文编写于 95 天前,最后修改于 95 天前,其中某些信息可能已经过时。
AI和人类写作识别标准
语言特征分析(Linguistic Features)
句长分布:AI 写的句子长度往往更均匀,而人类写作有时长,有时短。 词汇多样性(Lexical Diversity):AI 会用很多“常见、安全”的词,人类则常带有口头习惯或专业术语。 停用词模式:比如“因此、此外、总之”等词,AI 使用频率与人不同。 语法结构:AI 容易生成语法过于规范、衔接顺畅的文本,人类更容易出现“破句”或语法不完整。困惑度 & 爆发度(Perplexity & Burstiness)
这是检测器的核心指标: Perplexity(困惑度):衡量文本对一个语言模型来说“意外程度”高不高。AI 写的文字对 AI 来说 太不意外(即可预测性很高)。 举例:AI 写 “区块链行业正在快速发展,未来有广阔前景。” → 预测性极强。 人写的可能是 “我前年在迪拜参加会议,才意识到二线城市的区块链公司招聘热得惊人。” → 模型难预测,困惑度更高。 Burstiness(爆发度):衡量句子长短、复杂度的变化。AI 的句子模式更均匀;人类写作往往有起伏。重复 & 模板检测
Copyleaks 会检查是否出现过多类似的表达方式或常见 AI 模板(如 “In conclusion, it is important to note that ...”)。 人类写的长文往往会“跳跃”或偏题,但 AI 的写作结构趋向平稳、对称。上下文一致性检查
AI 可能会自洽过度,逻辑过于“顺滑”。 人的文章可能前后观点有冲突,或中途插入与主题不太搭的内容。 Copyleaks 通过比对上下文衔接度来识别。
人类人工写作特点:
困惑度:高(具体细节“9 月”“午餐排队”“咖啡厅鸡饭”不容易预测)。
爆发度:高(短句“最让我意外的不是…”,长句混合,节奏变化大)。
词汇多样性:高(“插座”“Demo”“鸡饭”混合专业与生活词汇)。
上下文自然跳跃:人类常见的叙事跳跃(从会议 → 午餐 → 咖啡厅 → 感悟)。
人写版句子长短不一,偶尔口语化。可能中途插入与主题不太搭的内容。
逻辑结构松散,信息碎片化,但有个人评论感。
句子结构复杂度(AI倾向平均长度、缺乏突兀断裂,人类写作会出现节奏差异)
词汇多样性(AI会复用固定的学术/行业词,人类写作更有突发的口语或非线性跳跃)
逻辑连贯性(AI写作整体条理过于顺畅,人工写作可能会有思路跳跃或遗漏)
细节真实性(AI往往会生成过于“完整”的职位分析,人工写作中更多零散细节或不对称)