社交机器人检测

机器人检测的特征工程(Feature Engineering f

2020-12-10  本文已影响0人  杨_光

摘要

社交实体有很强的医院滥用社交网络来获得权利或者提高影响力或者对明确的攻击目标进行攻击
恶意使用机器人包括模仿人类行为制造虚假的基层政治支持,宣传恐怖主义,操纵股票和广告市场,以及散布谣言和阴谋论。

社交机器人检测

已有的对社交机器人的检测主要分为三个方向,整体分析(holistic),成组分析( pairwise), 以个人为中心的分析(egocentric analysis).

在线检测框架和特征提取

botormeter系统从给定推特账号的一组推文中提取了1150个特征,通过网页端和API调用,在发布后的前几个月就服务了3000w次请求使用了以自我为中心的分析

特征分析

特征的数量过多,有的特征是相互冗余的,所以需要特征分析来降低特征的维数。可以作图显示不同特征的相关性大小。

特征选择

建立了流水线使用scikit-learn中提供的模型算法对两个数据集中的数据来进行特征分析,都是使用模型对单一大维度进行测试。来识别不同特征的差异性

image.png
发现最好的特征是通过用户元数据获得的,而随机森林产生的结果至少和其他方法一样好。还使用几个特征选择的方法如CIFEFCBFMRMR,发现了几乎用20个特征就能达到很好的精确性
image.png

总结

特征工程中的特征选择对于机器人检测系统的性能至关重要。一些机器学习方法例如随机森林能够继承弱学习者。使用少于20个特征就能达到很好的效果。深度学习能够为特征提取提供一些拓展,深度神经网络能够抽取重要的模式作为特征。DNN的进展加速假角色的生成,对话社交机器人的生成。以及生成对抗网络用来同时生成社交机器人的模型以及如何欺骗检测系统。Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow, and Rebecca Passonneau. Sentiment analysis of Twitter data. In Proc. of the Workshop on Languages in Social Media, pages 30–38. ACL, 2011 中给出了数据集。
翻译自:Varol等, 《Feature Engineering for Social Bot Detection》.

上一篇 下一篇

猜你喜欢

热点阅读