在我们的测试中,我们能够准确识别出约 65% 的垃圾/机器人/不活跃账户,误报率极低。 评分是如何进行的? 如果账户触发了工具中显示的 7-10 个(或更多)信号,我们会认定该账户是假的: 我们识别虚假账户的模型来自一个机器学习过程,该过程对数以万计的已知垃圾(和已知真实)Twitter 账户进行了测试。感兴息: 2018 年 7 月,我们从 3 个不同的垃圾邮件/机器人账户供应商处购买了 35,000 名虚假 Twitter 粉丝。
我们的供应商将这些粉丝
发送到一个 2016 年创建的空 Twitter 账 黎巴嫩电讯数据库 户,该账户在 2018 年 7 月的粉丝数为 0。交付这 35,000 名粉丝花了大约 3 周的时间,在这 3 周的时间里,我们每天都在收集粉丝的数据。 除了这 35,000 个已知垃圾邮件账户外,我们还从 SparkToro 的 400 万个账户数据库中随机抽取了 50,000 个非垃圾邮件账户。这样我们就有总共 85,000 个账户可以在 AWS 上进行机器学习。 这 85,000 个账户被分成两组,其中既有垃圾邮件账户,也有非垃圾邮件账户。
推文的天数 推文数量 账户出现在列表
A 组作为训练集,B 组作为测试集,用于分析模 柬埔寨电话号码 型的性能。 初始模型生成使用了以下数据: 个人资料图片 个人资料网址 已验证帐户状态 语言 推文语言 帐户年龄(天) 个人简介长度 关注者数量 关注的账户数量 距离上一条中的次数 地点 显示名称 在找到适合数据的模型后,我们分析了相关性以确定与垃圾邮件密切相关的特征。虽然没有一个特征与检测垃圾邮件有 1 比 1 的相关性,但有很多特征显示出希望。以下是与垃圾邮件帐户最相关的特征: 个人资料图片 – 缺少这些的帐户通常是垃圾邮件 账户使用天数——某些模式明显与垃圾邮件相关 关注者数量——垃圾账户的关注者往往很少 距离上次推文已过去几天——许多垃圾账户很少甚至从未发送推文 账户出现在列表中的次数——垃圾账户几乎从来不会出现在列表中 显示名称 – 某些关键字和模式与垃圾邮件密切相关 然而,这些信号并非孤例,其他与垃圾邮件有相当相关性的信号(尤其是当多个信号适用于一个帐户时)也有助于建立有效的模型。