https://blog.lyc8503.net/post/llm-classifier/
TLDR:因为不堪低质 AI 生成内容的困扰,我做了一个 AI 生成内容检测模型(我猜就是论文 AI 查重同款原理),并将其用在了同人二创的文章上

随后我把网易 Lofter 上热榜前 20 的 Tag 内容送给了它... 抽取的近一周的 2129 篇文章中,686 篇 (32.22%) 被判定为疑似 AI 生成,受灾最严重的一个 Tag 中,超 50% 的文字作品疑似由 AI 生成。其中,没有任何一篇文章进行了 AI 内容申明。所有检出的文章中,疑似为 DeepSeek 生成的文章最多。

作为对比,该检测方法在 2022 年的测试数据上测得的假阳性率仅为 0.3%,所以这里的数据大概率只会少不会多...

...怪不得 tmd 最近越刷越不对劲,原来随便一屏 6 个作品里平均就有 2 个是 LLM 的杰作,这还只是文本,感觉 AI 生图只会更加泛滥。

就是说,其实我也不是用不上 LLM,要不以后直接发 prompt 吧,我还能按自己喜好改改。

我不是什么人类原教旨主义者,但这些 AI 内容大都烂到家了,除了主人公名字和原作相关,拿着那么几个烂梗就往上硬凑,描写颠来倒去那几种,Lofter 再不想办法管管 AI Spam,互联网上名存实亡的平台就又要多一个了。
用"古典"机器学习检测 LLM 生成的网文 (AIGC 文本检测)

TL;DR & Demo目前 (2026/02) 主流的 LLM 生成的文本有较强的统计学特征, 可以用于传统的机器学习模型区分人类创作的与 LLM 生成的文本. 我猜测这是目前许多”AI 查重”的实现原理. 在线 Demo: https://lyc8503.github.io/AITextDetector/ .admonition { margin: .75em 0;

Lyc8503's blog
@lyc8503 只是个人测试:刚刚用claude 4.5op按照我给的提纲生成了个600字的开头丢进去检测率是55%,用我多年前自己写的同人文段落丢进去,从10%-80% AI率都有。
@uruk800 因为检测是按句子分割后独立进行的,如果输入过短,句子过少,结果可能会不置信。例如只输入了三四句话,其中最长的一句被误判了就寄了。我等下在网页加个字数过少提醒好了。

原文和推文中的数据过滤了文章字数 >=2000,在 lofter 真实数据上评测应该是误检出很少的,可以参考原文中数据。
@lyc8503 原来如此,确实也是哈,字数多了才看得出行文逻辑。
@lyc8503 拿我用GPT 5.4写的小说测试
Overall: Maybe Human (50%-70%)
1,753 / 3,253 chars flagged as AI (53.9%)
开心
@lyc8503 还有一章拿到了
Overall: Human (<50%)
552 / 1,449 chars flagged as AI (38.1%)
的高分
@lyc8503 哇,太好用了。我发KDP之前就拿这个检测了
草,那你太强了,GPT-5.3/5.4 确实不知道改了什么,检出率会低了一些,如果混点英文就容易检不出。

看来检测器还得随模型更新迭代,猴年马月再说吧,现在没钱拿 GPT 的数据来训练​
@lyc8503 记得之前听说有个用困惑度检测的方法?🤔
@aether2023 我文中开头提到了困惑度检测,但复现大失败,不知道是不是代码有问题,但我测试的效果很不好
@lyc8503 嗷嗷,拜读了全文qwq 好厉害👍🏻