目前,现代社交媒体的兴起同时给我们带来了挑战。为了保证用户所能享受到的网络安全和谐,虚假信息的检测成为了至关重要的问题。本文通过研究总结了国内外相关的文献,总结出了社交媒体中常用的虚假信息检测的方法。并且改进了混合核函数SVM方法检测微博中所存在并传播的虚假信息。分析比较了不同文献中所采用的算法,查看其适用范围,对比其优劣,全面展现出目前虚假信息检测的研究现状及算法特点。此外,本文还指出了目前检测方法的研究难点和将来的发展趋势,以此希望对虚假信息检测相关的研究与应用提供参考。
本次毕业设计采用的数据来自:新浪微博社区管理中心和新浪微博API接口所可以获取的热门微博数据集,数据集其中包含着谣言数据和非谣言数据,在提取了用户特征、评论特征和社交网络特征的基础上,充分利用了信息事件在网络上的传播树结构,改进了基于混合核函数的SVM方法,对传播树的边增加了支持性分析因素,对数据集进行了分析及处理。最终完成了设计任务。
1.1课题背景
2019年8月30日,CNNIC发布了第44次《中国互联网发展状况统计报告》。报告中指出截止至2019年6月份,我国网民的规模达8.54亿,较2018年底增长2598万,互联网的普及率高达61.2%,较2018年底提升1.6个百分点;我国手机网民规模达8.47亿,较2018年底增长2984万,网民使用手机上网的比例达99.1%,较2018年底提升0.5个百分点。我国人民中采用不同途径使用网络进行娱乐等活动的人逐渐增多,因此社会媒体在日常生活中所占的比重越来越大。
下面我们分别对以下几个关键名词来进行定义。
定义1:社交媒体:
社交网络媒体(socialmedia)指的是在移动互联网上的一种人们与用户彼此之间可以用来相互分享自己所包含的意见、见解、经验和以合理的途径和方法表达个人观点的一种社交工具网络和平台,它可以用来帮助不同网络用户之间交流内容与互动心得。目前我国现阶段的市场上的主流社交网络媒体主要分为两类,第一类主要是传统媒体,而第二类主要为微博、微信、博客、论坛等等。主流社交网络媒体是随着我国移动互联网的技术发展而进步的,故而在这些年得到了蓬勃发展,爆发出了举世瞩目的创新型能量,其中在社交媒体上所传播的内容和信息已经逐渐成为了人们使用和浏览移动互联网的重要工具和内容,它不仅迅速制造了人们在日常社交生活中关注和讨论的一个个关于政治,经济等方面的热门话题,更进而迅速吸引了大批的传统媒体公司相继的跟进。
社交媒体有很多代表着新时代的优点,它作为一种技术革新,从企业方面来讲,它可以推动企业与用户之间的互动,有效的提高了产品的质量,提供更好的客服渠道。对于消费者们来说,可以进行自主控制的社交关系,能免费接触大型企业,并且能操控与企业之间的内容互动。社交媒体的出现拉近了人与人之间的距离,但是社交媒体也有其一定的缺点。使用越多的社交媒体,越容易感觉自己更加孤独,与他人之间的交流更少、在社会当中的归属感也会更低、社交关系越不完满。社交媒体可以成为网络欺凌和可疑活动的中心。人们可以很容易在网上分享他们不应该分享的东西,暴露了自己的个人信息。同时,网络上也有很多的虚假信息的传播。
定义2:虚假信息:
虚假信息主要是指不真实的、有着负面影响的信息,虚假信息通过欺骗群众进而造成恶劣影响,有时候我们又将那些虚假的信息称为”虚假传言”等,我国传统的社会心理学对虚假信息的解释为”真实值不确定或者故意伪造的报道或声明”。而当其应用在现实的研究中时,部分研究者的主要观点是从虚假信息的”故意伪造”这个角度出发,将虚假信息定义为缺乏权威渠道所公布的,那些未经证实确实的消息,这是一种故意伪造或者虚构的消息[1]。
我们主要总结了以下几类的虚假信息:
1)常识类虚假信息。目前我们常见的常识类虚假信息主要针对生活常识以及历史常识等相关方面,受众的群体主要为中老年人。例如某些食物相克等信息,让很多人信以为真。但是这种类型的虚假信息经过大家努力科普,就能让人们面对它时嗤之以鼻。
2)经济类虚假信息。经济类虚假信息普遍都能造成重大的影响,例如某品牌在网上传播说其即将倒闭,这种虚假信息导致大家纷纷抛出手中的股票,导致股价大跌,就对其公司造成了巨大的经济损失,也严重动摇了根基。
3)政治类虚假信息。这种虚假信息所产生的影响最大,一般都与国际关系、国内政治有关。这种虚假信息一旦没有遏制住,便会对两国的关系造成巨大的影响,煽动了民众的情绪,激化两国的矛盾。是一种较为常见的手段。
4)诈骗类虚假信息。这种虚假信息通常通过博取人们的同情心理,让人们进行捐赠或者汇款等行为,骗取人们的大量关注。
1.1研究意义
随着社会媒体的逐步发展,社交网络的逐渐成熟,更多的虚假信息在网上流传。虚假信息的传播具有特别巨大的坏处,非常容易会对社会造成严重的不良影响,如2011年响水县“爆炸谣言”引发了几十万人的大逃亡。在疫情期间,传播虚假信息导致的恐慌时常上演,如编造粮食不够导致粮食哄抢的恶劣事件、编造有感染者逃跑导致民众恐慌的恶劣行为。
首先,虚假信息会对媒体的公信力造成影响,会降低媒体的公信力。中国有一句古话“诚信为本”,对与绝大多数行业的商家来讲,把握货品等事物描述的真实与商家所应恪守的诚信原则就是商家成功的关键。而在网络上的那些爆火的主流媒体或者个人运行的新媒体,他们成功最根本的原因就是其坚持他们所发布的信息真实性,恪守本心。但不好的是,现阶段网络上一些媒体为了博人眼球,进而获取不当的经济利益而发布虚假信息,如此行为,长期下去必会损害到大众对网络媒体的信任。
第二,虚假信息一旦在网络上传播开来,它的影响不仅仅在于欺骗大众,甚至严重时还会极大的扰乱社会秩序,扰乱社会长治久安。比如:在2013年有一则消息,令人惊叹的“樱桃生蛆”事件,传播者附上樱桃生蛆的照片,以此劝大家不能吃樱桃,一时间竟引发大众的恐慌并广为传播。最终经过相关部门证实发现,该图片所表现的问题只存在于少数樱桃。可经过社交媒体对于该谣言的传播,极大的引起了人们对吃樱桃的集体恐慌、进而导致了果农的樱桃难以出售等严重的后果。所以虚假信息的传播会造成很多不良的危害,人民的信任、社会的秩序等方面都受到了极大的挑战。
虚假信息的传播对社会造成极大的坏影响。虚假信息的识别与检测就成为了极为亟待解决的问题。对虚假信息进行检测及识别,能够对社会有好的影响。
2文献综述
2.1国内外相关研究
对于社交媒体虚假信息检测的研究,现在主要分为三类
(1)从用户特征以及内容特征出发:用户特征主要包括用户的关注数、粉丝数、用户是否已经认真、用户性别是否为男、用户所在地点;内容特征主要包括内容的长度、内容中符号的数量、内容是否带有标签、URL、关键词分布情况等。2010年,Ratkiewicz等人使用提取信息中的话题内容、表情等特征,对Twitter上的政治性谣言进行识别[2]。2011年,Qazvinian等人利用Twitteer信息的文本内容特征,通过使用贝叶斯分类器以及集成分类器,来对微博谣言进行检测[3]。2011年,Castillo等人使用了文本内容还有用户的特征等,使用决策树、SVM等算法,对Twitteer上的新闻进行检测[4]。Yang等人使用了用户所在的地点,还有微博发布时候所使用的终端类型等特征,在新浪微博上,对其上的虚假信息,进行了检测[5]。Carlos C等提取Twitter上的消息内容的长度、Twitter用户特征如用户的关注数、用户的粉丝数等,使用J48决策树对Twitter上的虚假信息进行检测[4]。K.R.Canini等人提取用户的信息特征来进行虚假信息的检测[6]。Suliman Aladhadh等人提取用户名称、用户头像等特征,探求用户的位置信息对该用户是否可信的影响[7]。王峰等人通过用户特征,定义了用户可信度的新概念,还提出了用户可信度模型,用新浪真实数据集进行了虚假信息的检测[8]。2013年,贺刚等人提出利用符号和链接和关键词分布以及时间差等特征,使用SVM分类算法来进行微博虚假信息的检测[9]。如Dayani等人选取提取了特征,其中包括用户和内容两个方面,采用两种分类器:分别是K最近邻分类器、NB分类器,以此来检测Twitter中散播的谣言[10]。Gupta等人选取用户特征和一些内容特征,基于决策树分类来检测Twitter上的虚假图片[11]。
(2)从评论的特征角度出发:主要包括评论的情感倾向、内容与原文的相关性、内容与原文的支持性等。Zhang等人在2015年采用了评论中所表达的观点、情感极性、用户影响力等多种潜在特征[12]。段大高等人叩从评论的角度出发,选取微博评论对博文内容的置信度、支持性以及评论与博文之间的内容相关性作为特征对评论进行SVM分类,通过统计微博下的异常评论的比例,判定其是否为微博虚假信息[13]。
(3)从信息传播的角度出发:基于传播的角度一般是对整个内容网络上的信息进行评定,判断信息的真假。从该角度出发,核心是构建一个可信的内容网络,使用合适的可行度传播算法。Gupta等人构造了一个可行度网络,在这个可行度网络里面,拥有用户、微博的具体消息以及时间,采用了半监督学习的思路来解决问题,使用了启发式迭代算法,以便更精确的求解信息传播的结果[11]。Ma等人在2015年针对以往工作忽略了与时间相关的传播特征的缺陷,提出了采用动态时间序列模型检测谣言,获取了部分现有的特征在信息传播的生命周期内随时间动态变化的特征[14];之后Ma等人又在2017年提出通过评估不同类型的传播树结构的相似性来捕获微博事件的高阶特征[15];Liu等人在2017年对谣言和非谣言之间的差异进行了系统分析,提取了信息传播过程中传播树的深度和宽度等特征[16]。如在谢柏林等人的研究中,使用了模型状态持续时间概率,为Gamma分布的隐半马尔可夫模型来详细阐述了信息的发布者、转发者和评论者,对现阶段相关热点的真实信息的把关行为,基于这种方式来进行虚假信息的在线检测[17]。
综上对比可以预测出,在未来一段时间的发展趋势里,语义分析这部分相关研究还有待完善,同时,部分文章的算法结构随着时间的推移、科学的进步,还可以有更加优化的空间,可以提升准确程度和判别效率。在深度学习人工智能等领域同样可以应用在虚假信息的检测中。值得一提的是,从传播途径来分析检测等不同的途径也是可以研究的方向之一。
本文主要采取基于传播途径的方式来进行社交媒体虚假信息检测,改进了文献[23]中所使用的基于混合核函数的SVM检测算法,对微博上的虚假信息进行了进一步的检测,提高了准确度与效率。
2.2SVM核函数简介
2.2.1SVM简介
支持向量机(Support Vector Machine,SVM)在1995年被Corinna cortes等人所提出,它作为一种机器学习的分类算法,经常被应用于各种领域,它以结构风险最小化准则为根据,其目的为最大化来分类间隔,进而构造出最优化的分类超平面,通过这种算法,提高机器的学习能力。对于一般的分类问题,使用此算法就是从数据中找到一个最优超平面,以此为依据可以将样本进行分割,这个最优超平面的选择方法,这个最优超平面样本点与数据点的距离是最大的。我们可以将支持向量机分为以下三种,分类的依据为我们使用的训练数据样本是否可分割:
(1)硬间隔支持向量机:当我们对超平面使用的训练数据可以进行线性分割的时候,可以使用分割后的数据进行硬间隔最大化,这就是线性可分支持向量机。
(2)软间隔支持向量机:当我们对超平面使用的训练数据可以进行近似的线性分割的时候,可以使用分割后的数据软间隔最大化,这就是线性支持向量机。
(3)非线性支持向量机:当我们对超平面使用的训练数据不可以进行的线性分割的时候,我们无法使用任何方法,这就是非线性支持向量机[18]。
图2.1线性可分的支持向量机
当我们使用的训练样本线性可分的时候,如上图2.1所示,图中圆圈标识所代表的为正类,三角形标识所代表的为负类。我们可以很明显的观察出,在两个标识区间内,有很多条直线可以将样本进行区分,而支持向量机这个算法的任务就是要计算出在该区间范围内,是否存在一条直线与最近的训练样本之间的距离最大,这条直线能很好地适应我们的训练样本的局部的扰动,具有很强的抗干扰性,如图中实线。而该区间内的其他的线(如图中虚线所在的位置),如果我们采用的样本数据点有一些偏移的话,就有可能因为扰动进而被错误的分割分类。从二维推至三维甚至更高维度的时候,支持向量机算法的任务就是找到空间内的距离最优超平面,而距离该直线或平面最近的点称为支持向量点,在如上图所示的二维平面中支持向量点为图中两条虚线所穿过的圆形和三角形标识点。
假设超平面可通过如式(2-1)的线性方程进行描述:
(2-1)
其中:
w超平面的法向量;
b位移量;
对于我们所采用的训练样本集,标识到二维平面为点,由于我们寻得的最优面可以将训练使用的数据样本集进行正确的分类,则对于训练样本集,我们可以将其进行如下的分类:
(2-2)
(2-3)
其中:
样本为正样本,
样本为负样本。
实际上,上面的公式我们可以进一步的进行简化,可以将公式化简为:,则该公式成立之后我们可以获得支持向量点。
我们可以计算平面数据当中的点(支持向量)与我们所求超平面之间的距离:
(2-4)
最优的超平面可以求得与支持向量点xs距离最大的位置,换而言之,就是计算最大距离d:,显而易见的是,最大的距离d:相当于经过最小化计算所得出的,为了方便我们的计算,我们可以进一步转化为公式(2-5):
(2-5)
转化后的公式是一种规划问题,是二次幂的规划问题。我们采用拉格朗日乘子法对其进行计算,对该式的对偶问题进行求解,通过这样处理后我们可以得模型公式。
上面的介绍都是基于最优超平面计算中样本线性可分的情况,也就是硬间隔支持向量机,但通常我们面对的问题不会如此简单,我们所采用的数据样本集通常而言是线性不可分的。而当我们处理线性不可分这样的问题时,也就涉及到了SVM支持向量机通过使用核函数,将我们的训练数据投影到到可以分割的高维空间对数据进行处理,进而解决问题。因为低维不可分的数据,如果将其投影到高维空间时,增加了一个维度,我们就可以将其分割开来。示意如图2.2所示。
图2.2高维空间可分示意图
2.2.2核函数简介
核函数在处理不可分问题的时候有很大的作用,当我们面对在原始空间中原本不可分割的样本数据的时候,可以将数据经过非线性的投影在高维空间中,这样数据便可以被分割。在对于支持向量机的分类中,核函数来投影数据有着不可替代的作用。我们在计算中比较常见的核函数有以下几种:
线性核函数:
多项式核函数:
高斯核函数:
拉普拉斯核函数:
上面四个核函数在对数据投影的支持向量机中都是比较常见且常用的,熟练运用以上四个公式能处理绝大部分往常束手无策的样本空间问题。但是该方法仍有一个缺点,就是无法对数据所构成的图结构进行高维空间的映射。我们只有利用图核才能将图结构映射到高维中,常用的图核方法可以分为以下几类:基于游走的图核函数、基于路径的图核函数等。我们进行简单的介绍[19]。
1)基于游走的图核函数
Gartner等人首次提出了基于游走的图核函数,该函数首先计算公共通路数目,进而对比两个图结构之间的相似性。例如我们给出两个图结构与,而我们给出为和的直积图,直积图的点集合我们设为,而是与直积图相关的邻接矩阵,则我们将一个随机游走核的定义为如式(2-6):
(2-6)
上面的式子中表明记录了我们所求的节点i与节点j间的通路数量,是随机游走在两个节点之间的通路长度为n的结果。式中λ是一个判定公式的衰减系数,当我们所设的λ足够小时,上式收敛。
2)基于路径的图核函数
我们可以给定两个图和,则该方法,也就是基于路径的图核函数,该函数可以通过比较两个图之间的最短路径,从而比较其相似性。该核函数可定义为:
(2-6)
其中,图和的所有最短路径所构成的集合,在上式中表现为与。而我们所需要的距离的长度为1,代表了一种简单通路核,可以作为计算得基准。
3基于混合核函数的SVM检测算法
我们为了充分利用信息的传播树结构,在我们所熟知的传统统计相关数学特征的基础上,文献[23]提出了对虚假信息检测的一种方法,就是基于混合核函数SVM来对虚假信息进行判别,文献中检测过程如图3.1所示。对于我们的训练数据信息事件,首先应该构建其虚假信息的传播树,并且,从数学的相关统计特征来进行提取,在构建好模型后,进行简化。此时我们还无法对数据进行分割,此时我们就要利用上文中的核函数,利用随机通路图核,使用高斯核函数,将数据信息进行具有统计特征的核化处理,然后按照加权比例,对得到相应矩阵,即传播树核矩阵及高斯核矩阵相加,最终组成混合的核矩阵。将我们计算而得的核矩阵放置在SVM分类器中,使用支持向量机分类器对数据进行分类预测处理,得到统计的信息事件分类类标。
图3.1混合核函数SVM检测算法流程图
3.1传播树构建及简化
3.1.1传播树构建
我们将信息事件定义为,对于本次设计中的信息事件,我们可以理解为获取的一系列相关微博数据的集合,可以表示为集合。其中表示在数据集中第条微博,该微博与信息事件相关。而每一条微博都有其独特的标识,有其不可替代性,有唯一的标识即用户的,同时,还有一个不可替代的信息,代表了该条微博是在哪条微博底下进行评论回复的。值得一提的是,如果数据集中为空,其中信息源没有数据,这种情况下表示这条微博是该用户的首创微博,没有父节点[20]。
根据微博上面用户的昵称以及该条微博的特有标识,我们可以建立微博与微博、数据与数据之间对应的递进父子关系,信息事件中的所有微博就可以绘制出一幅数据关系父子图,根据此图,我们可以梳理出一种图结构,该图表现出一种四周辐射的传播性质,我们可以称之为传播树。例如,我们将信息事件的微博用户及该条微博中特有的标识,进行联合,可以得到如表3-1所示的数据:
表3-1信息事件示例
id文本内容
1 null《单身男女》据知情人称:其实大家看到的是删减版结局,因为导演不想得罪吴彦祖的粉丝而影响影片票房。真正的结局是:高圆圆在所有人离开后,对吴彦祖说:对不起,我不想骗你,其实我爱的是他,刚才太多人我不想你难堪.然后戴上古仔的戒指离去,在门口发现在一直在等的伤心的古仔,俩人相拥而泣。你觉得怎么样?
2 1他胡扯的
3 1按正常的剧情来说应该是这样的。不过现实中我会选吴彦祖。
4 1我更喜欢这个结局
5 1不怎么样,我真心不喜欢这部剧,当年的《孤男寡女》好看多了。
6 2你说得对!
我们可以观察上表3-1,这是一个很典型的虚假信息传播结构,从该表中所表示信息中进行梳理,我们可以梳理出如图3.2所示的虚假信息的传播树结构,该图表现出了虚假信息由为1的用户所发布,并且虚假的信息通过我们所构建的树上的节点,传播到了用户名为1的子一级的用户2、3、4、5的微博上,由此可见传播性较强,并且由用户名为2的人继续传播,到其子级用户为6的节点,从此可以看出该信息进行了更广泛的二次传播。
图3.2传播树结构示意图
根据上面表格中的数据形成的虚假信息的传播树,很清楚的表明了该条虚假信息的传播方向,但是树中并不能容纳更多的信息,我们没有办法进行更深一步的处理。而我们为了能让我们所建立的传播树表示更多的信息,方便我们进行观察处理,我们要对传播树进行一些改进,而我们可以观察到,传播树上的节点和边上可以增加一些新的微博标识信息。
1.我们在构建图中的顶点时,可以将节点标识为一个三元组,即包含了信息。该三元组中代表着该微博发布者,其中为用户的个人信息,包括用户的微博条数、粉丝数、关注数等,主要用来鉴别该用户类型,是否为僵尸号等等。而三元组中的代表了该条微博所发布的时间,通过时间,我们可以获取该条虚假信息的传播速度,正常的新闻与虚假信息所传播的时间是不同的。而代表了我们从数据集的获取的微博文本内容,通过文本内容可以较为精准判断是否为虚假信息。另外,我们通过微博用户的粉丝数与关注数来判断用户类型,即可以将用户分为意见领袖(微博大V)和普通用户,这两种类型能简要的概括微博的用户类型。我们可以将三元组相关定义用公式(3-1)表示出来,
(3-1)
n otherwise
其中:
p意见领袖(大V)
n普通的微博用户

该微博用户的粉丝数量
算法设定的计算参数
2.在我们建立的传播树中,一个节点指向另一个节点时,产生了一个有方向的边,这条边我们可以用一个三维的特征向量来表示,在此三维向量中,字母是支持分数,表明了用户对该条信息的支持程度,字母是怀疑分数,表明了用户对该条信息的怀疑程度,而字母是用户的情感倾向。
得到三维特征向量的三个分数后,我们使用自定义的一个函数,将三个三叔进行整合计算,函数得定义计算公式如下式(3-2)所表示,其中是我们在计算过程中的自定义参数,它有一定的取值范围,,另一个参数代表着该条信息的发布时间和这条信息的源信息发布时间的差值,通过对比差值可以看出该条信息的传播速度。我们观察公式,可以看出,t越小,函数越大,即函数与发布微博的时间差值表现出负相关的性质,通过这个性质,我们可以看出,用户的转发速度越快,差值越小,该条信息就是越受用户的欢迎,支持程度就越热烈。
(3-2)
3.1.2信息事件传播树的简化
微博上有数亿记的用户,一条信息,不管是虚假或者真实,都有可能可以被成千上万的用户进行传播,传播度极为广泛,数量极为庞大。我们基于上述信息所构建的传播树也会随着转发变得更加的庞大难以处理,并且存在微博用户之间的反复转发等的行为,这样的情况下,我们的计算量会非常的庞大,难以处理。所以为了减少我们的计算量,就必须对我们建立的传播树进行剪枝,而如何剪枝才能不破坏信息传播的特点,是一个问题,经过我们的思考,我们制定了如下的剪枝规则:
1.如果转发评论微博的父子节点,两个用户都是普通用户,则合并该节点;
2.如果转发评论微博的兄弟节点,两个用户都是普通用户,则合并该节点;
3.源节点不论如何,是信息的起源,不能与任何的节点进行合并;
4.重复以上三个步骤,直到剪枝不能再进行下去为止;
5.在我们进行节点的合并时,新节点的边向量是合并之前两个传播的边向亮的平均值。
图3.3传播树简化示意图
图3.3中包含着红色节点和白色节点,图中传播过程中红色的节点代表了意见领袖(大V),而数量众多的白色的节点表示普通用户,更符合普通人为多数的原则,而且红色节点的传播性更强,影响力更广,也就是那些少数人。将传播树进行简化之后,我们可以看到节点的数量大幅度的减少了,这样更有利于我们的分析和计算[21]。
3.2统计特征提取
特征提取是过程中必不可少的一步,我们通过已经建立好的传播树,再而进行提取微博及用户数据的信息,同时传统数学统计性特征也是我们在特征提取时不可或缺的一步,那些数据可以很清晰地体现出传播的特征。在我们本次的设计中,一共提取了16组的统计性特征,我们可以将提取后的特征进行分类,主要分为社交网络特征、文本特征、用户特征这三类的信息。具体如表3-2所示。
本文从每个事件中提取16个特征来构建RBF核向量。
表3-2统计特征
特征类型特征定义特征说明
基于内容的特征Has_picture信息是否包含图片
Has_url信息是否包含URL
Text_len文本长度
基于用户的特征Has_verified用户是否认证
Has_description用户是否有个人简介
Gender用户性别是否为男
Friends_count用户关注数
Followers_count用户粉丝数
Bi_followers_count用户互粉数
Location_detail用户注册位置信息的详细程度
Is_same_location事件发生地点是否等于用户注册地点
基于传播的特征Comments_count源信息评论数量
Repost_num源信息转发数量
Favourites_count源消息点赞数量
Collectionc_count源消息收藏数量
3.3混合核构成
混合核构成能更好的帮助我们选出最优超平面,此次设计中,我们结合了随机通路图核与高斯核两种计算方法,不仅考虑了传播树结构,还考虑了统计特征。我们构建的混合核函数如下式(3-3)。
(3-3)
其中:
、虚假信息、所建立的传播树
、虚假信息、的相关性的统计特征,该特征要进行归一化计算进而组成特征向量(特征如表4-2所示);
K(,)在传播树进行改进之后,总结出的随机通路图核;
K(Xi,Xj)高斯核函数;
β指定参数,且β存在取值范围,0<β<1。表现了随即决定通路图核是否重要,β的数值越大,则传播树在计算中有更重要的作用。
我们采用传统的方法来计算两个图之间的相似程度的时候,这种传统的计算方法没有考虑到我们在论文中新增加的节点数据和边向量,而我们所构建的传播树中含有这些数据,所以我们需要对传统的图核进行改进优化。改进后的随机通路图核优化如下。
(1)对于我们已知的构建完全的两颗传播树T(V,E),T(V’,E’),其中V为树中节点,E为则是传播树中的边向量。我们用这两个传播树来构建直积图Gx(Vx,Ex),而直积图Gx中存在顶点,该顶点为数据信息合并后的顶点位,直积图Gx中两个顶点同样存在着边向量,但是具有一定的存在条件,即两个传播树中皆存在顶点。我们可以总结为公式(3-4)与公式(3-5)。
(3-4)
(3-5)
(2)核函数计算中必不可少的就是要计算我们直积图Gx中存在的邻接矩阵Ax,其中矩阵Ax的元素需要单独计算,[Ax](u,u’),(v,v’)=l,l的计算方法及相关数据如公式(3-6)及(3-7)所得。其中,v1、v2是两个原传播树的边向量。矩阵Ax的元素[Ax](u,u’),(v,v’)是传播树中两条边经过高斯投影之后所得,这个数据极大的反映了这两个传播树的相似程度,也可以说是两个不同的传播树中的节点的相似度。
(3-6)
(3-7)
(3)我们计算了两颗传播树的相似度,将其与邻接矩阵Ax计算归一化。相关的计算方法如式(3-8)式(3-9)。
(3-8)
(3-9)
其中λ存在取值范围,0<λ<1,n和n’是两颗传播树的节点个数。
4实验与分析
4.1数据集介绍
数据集采用文献[22],该数据是从新浪微博社区管理中心以及新浪微博API接口获取而来的。这个数据集总共包含4664个标记事件。其中包含2313个谣言和2351个非谣言。数据集包含着两部分,第一部分为一个txt文件,每行包含一个具有相关帖子id的事件,格式为:事件id、标签、帖子id。对于标签,如果事件是谣言,则值为1,否则为0。第二部分为json数据集,内容为对应事件所包含的微博,其中每条微博数据包含用户uid、点赞数、文本内容、用户简介、微博id、用户信息填写省份、用户信息填写城市、用户当前所在地、用户的关注数、用户的粉丝数、图片内容、是否源微博、用户是否认证、用户名称、用户性别、评论数、收藏数、微博发生时间等字段。
本文采取的评价指标有4个,分别为正确率、准确率、召回率和F1值。
(1)正确率(accuracy):正确率的定义是被算法正确分类的数据的数量和数据集中所有事件数量的比值,正确率越高代表了模型具有更强的分类性能;
(2)准确率(precision):准确率的定义是被正确分类为虚假信息的数据的数量与全部虚假信息数量的比值;
(3)召回率(recall).召回率定义为被我们的程序正确分类为谣言(或非谣言)的信息总数量与实际情况下的谣言(或非谣言)的事件总数的比值;
(4)F1值(F1-score).F1值的定义为准确率和召回率这两个数值的加权平均数,是准确率和召回率这两个因素进行综合考量的数值,其计算公式为F1=(2×Precision×Recall)/(Precision+Recall).结果表明,F1的数值越高,模型的分类性能越好。我们可以用式(4-1)(4-2)(4-3)(4-4)来计算其数值。
(4-1)
(4-2)
(4-3)
(4-4)
4.2实验改进
文献[23]中传播图的有向边是由支持分数、怀疑分数还有情感倾向构成的向量来定义。但是情感倾向概率值仅仅与该条评论自身有关,而无法表达出对其的父亲节点态度的支持或反对。
以“中国人的消费模式注定了这种悲哀!”为例子,词条微博评论的情感倾向为负向,但是对于事件源头“顾客逗留不去是星巴克中国扩张一障碍”来说,其实“中国人的消费模式注定了这种悲哀!”是对事件源的支持。针对这一问题,本文进行了改进。文献[1]中定义了内容评论支持度,表现了用户对该条微博的支持程度。如果在内容筛选中,检测到了大量的负面情感内容,则会更改支持态度。
所以在本次的设计中我们会对每条微博下面的评论进行情感方向上的辨别,分别计算评论中的情感的正向比重和负向情感的比重,所以可以得出对于微博内容支持度的公式(3-5)如下计算:
(3-5)
4.3实验参数与分析
本文选取了100条样本空间中的数据进行支持向量机参数参定,使用LIBSVM实现了支持向量机分类器,使用10倍交叉验证获得参数:,[24]。
其次确定的值,影响树中意见领袖的数量,从而影响最终的简化树和核函数的计算。本文通过10次交叉验证来分析对支持向量机的精度的影响。在确定时,先把设置为1。
图4.1参数对精度的影响
当=45时,精度到达最大值。固设置=45。
再次,确定的值,本文尝试调整最佳B值来平衡随机通路核和高斯核。对于的每个值,本文训练一个支持向量机分类器并记录其精度。
图4.2参数β对精度的影响
可知当=0.4时精度最高,故取0.4。
4.4实验结果
文本由于条件限制,仅在较小的数据集上进行了试验。本文随机选取了所采用的数据集中的300,400,500条数据进行了虚假信息的检测,并且与文献所提出的方法进行对比[23]。
表4-1实验结果
数据量大小300 400 500
正确率(accuracy)改进的方法:0.892 0.884 0.875
原方法:0.876 0.865 0.860
准确率(precision)改进的方法:0.872 0.862 0.854
原方法:0.863 0.842 0.846
召回率
(recall)改进的方法:0.897 0.902 0.913
原方法:0.856 0.884 0.916
F 1值
(F1-score)改进的方法:0.884 0.881 0.882
原方法:0.859 0.862 0.879
通过实验的结果可知,在数据量为300,400,500时,文本改进后的虚假信息检测方法均优于文献[24]中的方法,说明了本文的改进是有效的。