优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 其他论文 > 正文

基于情绪信息熵的网络舆情传播模型研究

作者:聂琦 张鸫 江昊来源:《武汉大学学报(工学版)》日期:2022-09-28人气:798

随着互联网的发展,当前网络舆情的传播异常迅速。网络舆情通常指公众由于事件刺激而产生的在互联网上对特定事件的认知、态度、情感以及行为倾向1。针对网络舆情传播模拟方法进行研究,对于保障网络舆论的有序发展具有积极的作用。随着互联网技术的飞速发展,人们越来越容易在网络空间上发表自己的态度和看法。网络舆情中涉及的事件如果处理不及时或者处理方式不当,很容易引发社会公共事件,严重威胁社会和谐稳定。

大数据时代网络舆情传播的规模越来越大,传播的速度越来越快,造成的影响越来越大,产生的原因也越来越复杂。网络舆情目前在社会舆情中占据重要地位,针对网络舆情的相关研究已经在世界各地逐步开展,就网络舆情的传播规律而言,相关研究主要以模型研究为主,对信息的传播和扩散进行分析。比较常见的有小世界网络模型23、热扩散模型4、元胞自动机模型5等。此外,由于传染病的传播机理和舆情的传播具有一定相似性,不少学者使用传染病模型6对网络舆情进行分析。

传染病模型是研究舆情演化使用最广泛的模型之一。目前针对网络舆情使用较多的有SIR(susceptible infected removed)模型78等,针对舆情传播中的特定传播类型,学者们还提出了许多其他的传播模型,Daley等9提出了DK(daley kendall)模型对谣言的传播机理进行研究,揭示了谣言传播与流行病传播存在的异同。Maki等10研究发现,信息在网络上的传播是基于接触传播者实现的。

以上这些模型虽然在理论上对网络舆情的传播进行了模拟,但由于其只关注舆情传播的过程,在实际应用中具有一定的局限性,主要包括以下几个方面:

1)已有的传播模型主要以舱室模型为主,但部分舱室的设置不合理。

2)模型内部不同状态的转变始终维持着一个固定的概率,导致计算的结果与实际差异较大。

3)网络传播模型只描述了事件本身的发展,无法反映用户的情感因素。

情绪能够影响人类的行为11,信息熵影响用户的转发行为,本文利用信息熵来量化用户的情感倾向,并建立了一个基于信息熵的传播动力学模型,针对部分热门话题,利用微博用户的转发数据进行了模拟和对比。最后借助该模型的计算结果,提出了一些引导网络舆情的控制措施。

1 情绪倾向分析

1.1 情绪指数的统计特征

散粒体材料的颗粒形状和空间分布具有显著的随机性,根据颗粒级配、粒径、形状、孔隙率等生成三维多面体颗粒及其在空间中的分布15。采用二阶四面体单元对生成的多面体颗粒进行离散,同时采用弹脆性损伤模型描述细观单元的力学行为16

在自媒体时代,任何一个网民都很容易成为情绪传播的主体。网络舆情类型不同,传播的情绪类型也不同,本文使用闻海大数据分析平台,将舆情的情感倾向划分为感动、信心、恐慌、警惕和愤怒5类情绪指数。一般来说,网络舆情涉及的文本内容反映网民的情绪倾向,利用闻海平台内置的词频统计工具,可以分析出微博文本中的情绪倾向。情绪指数反映了微博中涉及的话题情感倾向,微博中每条文本都具有表达作者情感的词汇和语句。利用自然语言处理工具可以分析微博内容的词频、用词倾向、句法逻辑等,同时再根据专家系统对数据进行分类并打上对应情感的标签,即可知道特定的微博在不同情感上的倾向如何,并用频数或其他标量进行情感指数的量化。本文分析了微博平台涉及新冠肺炎疫情相关话题的情绪指数,5种情绪倾向的变化趋势如图1所示,其中包含了微博当日所有涉及疫情相关的话题讨论。

图1  情绪指数的变化趋势

Fig.1  The changing trend of emotion index


图1可见,在2020-01-20钟南山明确表示此次新型冠状病毒感染的肺炎存在人传人现象后,微博上涉及疫情的讨论开始持续增长,图中不同的折线表示归类为某类情绪的情绪指数,总量可以看作是全网对该话题下的子事件的舆情倾向;图1中1月21日恐慌指数的斜率较大,表明此时用户的恐慌情绪较快速地上升,需要采取一些缓解民众恐慌情绪的诱导行为,此外,点线所表示的感动指数也与疫情期间涉及的子事件存在一定相关,如2月2日火神山医院交付、2月8日雷神山医院交付以及2月10日方舱医院医生患者一起打太极拳等事件。

1.2 信息熵

在信息论中,通常用信息熵来表示信息量12。信息熵一般用来测定信息的混乱程度,熵值越高,信息的混乱程度越高;熵值越低,信息的混乱程度越低。信息熵的计算式如下:



(1)

式中:为随机变量;为随机变量的可能结果,的概率;决定信息熵的单位,时,信息熵的单位为bits;时,信息熵的单位为nats;时,信息熵的单位为dits。

对于某些的情况,由于




可以定义,其中p为概率。当时,信息熵取得最大值,即当所有的信息概率相等时,信息处于最混乱的状态。

信息熵是从信息论发展过来的一种度量信息的物理量,是用不确定性和混乱程度来研究信息的量13。信息熵理论同时也被应用于微博中意见领袖节点的识别工作、个性化推荐工作以及新媒体环境下网络传播过程中的节点影响力分析等方面的工作1415

将微博在疫情期间的情绪倾向统计量代入式(1),得到期间网民情感倾向的信息熵变化趋势,结果如图2所示。

图2  情绪指数的信息熵序列

Fig.2  Information entropy sequence of emotion index


2 传播动力学模型

2.1 SI模型

1927年,Kermack等7建立了经典的SIR动力学模型,该模型被广泛应用于各种传染病传播过程的模拟,此后针对传播动力学模型的研究开始兴起,适用于不同传染病的动力学模型层出不穷,包括SI(susceptible infected)模型16、SEIR(susceptible,exposed,infected and removed)模型1718等。

由于信息的扩散和传染病的感染机制类似,一般使用SI模型对信息的扩散进行模拟和仿真。SI模型的微分方程组如下:



(2)

式中:S为易感者,表示接收到相关信息的人;I为感染者,表示转发相关信息的人;为转发概率;为单位时间。

在传播过程中,涉及的总人数K保持不变,且满足,进一步可以得到



(3)

式(3)是一个Logistic模型,记增长率,在现实的舆情传播过程中,增长率反映舆情爆发的速度和规模。参与的总人数K越多,舆情爆发的速度越快,且规模越大。当时,舆情爆发的速度最快。如果想控制舆情的爆发,需要重点关注此时间节点。

2.2 SEIR模型

SEIR模型在SI模型的基础上加入了潜伏者E和免疫者R,模拟过程多了2个舱室状态以描述更多的人群类型。由于信息的扩散存在不可逆的过程,这就使得SEIR模型在应用到信息扩散中和应用到传染病过程中存在一些差异。SEIR模型的微分方程组如下:



(4)

式中:E为潜伏者,表示看到舆情后在犹豫是否转发的人群;R为免疫者,表示始终不转发的人群;为免疫率,即看到舆情并不感兴趣的几率;为转发率。各个舱室中的人群数量满足系统总人数恒定,即

2.3 改进模型

舆情信息扩散的SEIR模型通过设置不同的舱室大致描述了用户的转发行为,但由于缺少对用户转发的深层原因进行分析,依然会导致仿真结果与实际存在一定差距的情况。因为SEIR模型中各状态的转变是靠定值转发率来控制,并没有将情绪倾向的驱动代入到模型中,而情绪特征对于微博用户的转发行为具有明显的影响19-21。情绪倾向作为一个驱使用户转发的重要因素,需要加入到模型中对仿真结果进行修正,进而使计算结果更接近实际。

本文将信息熵作为量化指标,将用户情绪倾向加入到SEIR模型中,改进的模型流程如图3所示。

图3  模型流程图

Fig.3  Flowchart of the model


图3可得到改进模型的微分方程组:



(5)

式中:为舆情信息中的倾向对易感者的影响因子,定义如下:



(6)

式中:c为常数。

上述描述影响因素的公式和单个情绪指数没有直接的关系,而与情绪指数整体的分布有关,即情绪在社会上的分布影响着舆情信息的传播效率。当各个情绪所占比例势均力敌时最大,此时信息最为混乱;反之,当某一个情绪优势明显时,较小,此时信息较为有序。

3 案例分析

3.1 舆情事件描述

网络舆情传播点多、线杂、面广,信息量庞大,互动性、即时性、自主性传播特点突出。尤其在疫情期间,网络舆情的传播具有较为明显的“病毒式传播”特征,传播的速度快、范围广、影响大。

本文选取疫情期间微博上几个较为热门的子话题进行研究,即事件1:春节延长假期间上班先安排补休;事件2:湖北将临床诊断纳入确诊标准;事件3:湖北省卫健委党组书记张晋和省卫健委主任刘英姿双双被免职;事件4:俄罗斯向武汉捐赠23 t医疗物资。对于某个特定话题,搜索其关键词可以得到一定时间范围内不同用户的微博数据。本文以涉及关键词微博的用户名作为网络节点(这些话题的节点总数分别为85、63、409、925),按照消息来源者到消息转发者作为连边,建立特定舆情事件的传播网络,进而分析该舆情传播网络的相关特征。这些事件传播网络的节点规模不同,方便本文提出的模型研究在不同网络规模的情况下,信息传播的情绪驱动影响机制和传播网络的演化趋势。

3.2 舆情事件描述

在复杂网络中,常常使用节点的度属性、网络的聚类系数和网络密度来描述网络的整体特征22。相关事件的网络统计指标如表1所示。

表1  疫情期间4个事件的统计特征
Table 1  Statistical characteristics of the four events during the epidemic period
事件幂律系数聚类系数密度
13.091 10.054 90.018 2
22.892 00*0.021 5
33.287 00.036 10.005 4
41.976 20.005 40.001 2

*注:表中数据近似到小数点后4位,该值由于太小而被忽略,实际值并不为0。


1)传播网络的度分布

在网络中,节点的度数是指与该节点相邻的节点数目,即连接该节点的边的数目,网络的平均度指网络中所有节点度的平均值。度分布是对一个图(网络)中顶点(节点)度数的总体描述,指不同的度在网络中出现的概率分布。通常定义网络的度分布为网络中度数为的节点个数占节点总个数的比例。本文对上述微博热门事件分别进行了统计分析,得到各事件的度分布如图4所示。

图4  微博舆情事件传播网络的度分布

Fig.4  Degree distribution of microblog public opinion transmission


图4中,节点度分布存在明显的肥尾特征,这说明大多数节点的度都很小,而少数节点的度很大。大部分用户发言后获得的转发较少,而少量用户如明星大V等活跃用户存在较高的影响力和吸引度,对整体的舆情传播起到重要的作用,在一定程度上能够主导话题的传播走向。

2)传播网络的聚类系数

在网络中,节点的聚类系数是指与该节点相邻的所有节点之间连边的数目占这些相邻节点之间最大可能连边数目的比例。而网络的聚类系数则是指网络中所有节点聚类系数的平均值,它表明网络中节点的聚集情况即网络的聚集性,即同一个节点的2个相邻节点仍然是相邻节点的概率有多大,它反映了网络的局部特性。整体的聚类系数可以对1个图中整体的集聚程度进行评估,聚类系数高则说明各个结点之间倾向于形成密度相对较高的网群。

3)网络密度

网络密度描述网络中节点间相互连边的密集程度,在线社交网络中常用来测量社交关系的密集程度以及演化趋势。1个具有N个节点和L条实际连边的网络G,其网络密度为



(7)

网络密度取值范围为0~1,当网络为全连通时,dG)=1;当网络中不存在连边关系时,dG)=0。真实网络中能够发现的最大的密度一般为0.5。由表1可知,疫情期间的舆情传播网络一般具有较小的传播网络密度和聚集系数,这与实际社交媒体平台的使用习惯有关,说明在舆情传播网络中用户之间针对特定话题的转发关系具有较少的连边三角形,即用户之间的舆情转发网络不会存在太多回路。根据这一特点,只需重点关注网络中心节点及其周边的特定节点即可。

3.3 仿真试验

为了验证模型的有效性,选取疫情期间的4个事件进行分析。如图5所示,横轴代表相对时间,时间间隔为小时,从2020-01-20日开始计数;纵轴为传播网络的演化节点数,代表舆情的传播强度。采用蒙特卡罗方法对改进模型调参后进行仿真试验,模型各参数如表2所示。由图5可见,仿真曲线大致能够模拟出这4个事件的演化趋势,图中的黑色曲线表示潜伏者,由于改进模型存在潜伏期机制,潜伏者曲线的顶点处就是感染者(转发者)传播速率最大的位置,这为判断舆情走势提供了重要的参考;潜伏者曲线也反映了后续疫情的传播潜在规模。改进模型将信息扩散的趋势与网民的情感倾向联系到了一起,如果能让网民的情感倾向的信息熵降低,则会使舆情扩散的转发率下降,进而起到控制舆情的效果。

图5  模型仿真结果

Fig.5  Model simulation results


表2  改进模型所使用的参数
Table 2  Parameters used in the modified model
事件Ncαγ
1850.370.250.10
2630.270.250.10
33000.210.250.10
49200.430.250.10

4 结语

由于突发公共卫生事件对于人们意识影响的协同效应,使网络信息的传播更加迅速、影响力更加巨大。利用复杂网络传播动力学的相关理论研究突发疫情下的舆情传播机理,能够深入剖析传播系统中各作用主体之间的相互耦合关系,并估算出舆情演化速率的极值点,进而控制突发性重大公共卫生事件中不良舆情的扩散,以达到正确引导网络舆情的目的。本文通过改进带有潜伏期的SEIR传播模型,利用信息熵将网民的情绪倾向进行量化并引入传播模型中,能够有效模拟真实的舆情传播网络,为有关部门引导舆情传播提供理论参考。


关键字:优秀论文

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言