DeepFake系列——TweepFake:DeepFake推文检测

在昨天的文章 零分作文《生活在树上》中,我用GPT-2生成了两篇文章,让大家感受到了GPT-2的威力。一时间读者们来了很多有趣的想法,比如开个AI公众号,直接用AI机器人写热点文章。
 
其实在GPT-2出来的时候,我们尝试过在知乎运营一个自动答题的机器人,大家可以在知乎搜用户:openbot ,就能够看到一些自动回答的答案。
 
图片
openbot我们只运营了一天就停掉了,很多问题都是答非所问,回复质量堪忧,后面想通过相似问题来指向答案,意识到是在抢官方的事情干,就放弃运营了。后面GPT-3的中文版接口有了,我们还会再试试。
 
GPT-2模型在回答问题的场景中,确实效果不佳,但是在一些短文本生成领域,比如自动发微博等有一些应用。那怎么才能知道你看到的微博到底是人写的还是机器人写的呢?今天带来一篇最新的研究论文,怎么检测DeepFake推文。
 
  • 题目:TweepFake: about Detecting Deepfake Tweets
  • 链接:https://arxiv.org/pdf/2008.00036.pdf
作者为了研究这个问题,从推特上的23个机器人账号,17个真实账户中收集推文,得到了25836条总体平衡的数据集(机器人一半,人类一半),这个数据集在kaggle已经公开了,地址为:

   https://www.kaggle.com/mtesconi/twitter-deep-fake-text

数据集有了,作者用了最新的13种检测方法来检测这个数据集,结果发现基于
transformer架构的模型(例如:GPT-2),使用了更复杂的生成方法可以生成难以检测的高质量短文本。
 
下表是数据集中生成推文的方法
 
图片
生成的方法用得最多的还是GPT-2,还有用一些RNN,LSTM语言模型。下表为生成模型分类表。
 

图片

作者用了四种主要的方法来构建检测模型,包括:
图片
  具体的效果如下:
图片
可以看到GPT-2检测普遍偏低
图片
论文就讲到这里,有兴趣可以去看看原文(点击阅读原文),里面有一些检测模型的具体构建方法,值得看看。
不知道微博有没有对这方面的研究,我只知道微博上机器人泛滥,特别是评论。针对使用模型自动生成的微博,大家可以思考一下,DeepFake的中文微博应该怎么来做检测。
往期回顾:
文本对抗攻击工具:OpenAttack试用
Deepfake系列——音频深度伪造(1)
如果你认为GPT-3使程序员淘汰,那你大概率不写代码
比赛分析篇(1): 文本分类对抗攻击

图片

标签: