基于图像特征的事件级谣言检测
文章标题:Novel Visual and Statistical Image Features for Microblogs News Verification
作者:计算所,金志威
期刊:IEEE Transaction on Multimedia
本文基于新闻事件中的图像分布模式检测谣言。先直观感受一下真实事件和虚假事件的图像分布,关于真实事件的相关报道配图一般会从各个角度去描述图像,而虚假事件的相关报道中图像比较单一。
真实事件(左)虚假事件(右).png本文提出了5种图像视觉特征和7种图像统计特征。
1. 五种图像视觉特征
1.1 Visual Clarity Score
评价某新闻事件相关的图像分布和所有事件图像分布的差异。
设某一个新闻事件为事件,新闻事件集合为 ,提取图像集所有的SIFT特征点,聚类得到visual word,每个visual word用表示。
Visual Clarity Score用下式度量:
在假新闻事件中,图像的VCS得分要相对高一些,即假新闻的图像分布和事件集合的图像分布距离更大。
图片.png1.2 Visual Coherence Score
测试一个事件中图像的一致性程度
- 如果一个新闻事件中,相关图像都是同一个场景,那么这个得分接近1;
- 如果一个新闻事件中,相关图像都是不同的场景,那么这个得分比较小。
假设某个事件,包含张图片, Visual Coherence Score用下式计算,两张图片之间的相似度用两张图片的GIST特征的COS距离表示。
直观上看,真新闻事件图片的视觉一致性应该比较大(关于真事件的报道可能是从各个角度进行的),假新闻事件图片的视觉一致性比较小(假事件的新闻配图大家可能都是从一个源复制的),但是箱图上看不出这个结论,可能是因为相似性的描述方式不合适。
图片.png1.3 Visual Similarity Distribution Histogram
给定一个图片集包含张图片,对所有图片按转发和评论的次数排序,然后计算视觉相似性矩阵,其中表示第张图片和第张图片的相似度得分(1.2中计算的相似度得分)。最后统计矩阵中所有元素的直方图。
1.4 Visual Diversity Score
视觉差异度得分,把所有图片按流行度(转发+评论)排序,假设流行度较大的图片可以更好表示图片,流行度较小的图片包含较大噪声。这个评价优先考虑排名靠前的图片。
1.5 Visual Cluster Score
对某事件相关图片集进行分层聚类,以聚类的类别个数作为得分。真实事件的聚类个数一般大于虚假事件的聚类个数。
图片.png2 图片统计特征
本文计算了7种图片统计特征:
图片.png 图片.png在文章的实验中,直接使用图像的特征结果不好使用内容、传播、用户特征好;但是在文本特征的基础上引入图像特征之后,会普遍提升算法的性能。