System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机与信息安全,尤其涉及一种分布式舆情信息监测方法与系统。
技术介绍
1、舆情是网民表达情感、传播思想的重要载体。然而,随着互联网技术的普及,海量的信息呈指数式爆炸增长。为了维护网民合法利益和维持良好的网络环境,舆情系统成为了相关领域研究的热点。
2、然而,现有的舆情系统往往并未考虑主机间的分工协作,而仅由一台主机解析网页内容、获取资源并进行分析,或虽然考虑主机间的分工协作,但并未设计一套高效的管理和统筹机制,导致信息采集的效率低下。此外,对于采集到的信息,往往使用数据库进行存储,这导致信息存在安全性风险,同时为追责与溯源带来困难。
技术实现思路
1、本专利技术的目的在于克服现有技术中的不足,提供一种分布式舆情信息监测方法与系统,以解决信息采集效率低下和信息存储缺乏安全性、难以追责与溯源的问题。
2、为解决上述技术问题,本专利技术是采用下述方案实现的:
3、本专利技术提供一种分布式舆情信息监测方法,所述方法由工作节点执行,包括:
4、接收任务调度中心发送的url,解析url并采集url对应网页中的舆情信息;
5、利用深度学习模型对舆情信息进行分析计算,得到舆情信息的负面系数,根据负面系数和设定的负面系数阈值认定负面信息;
6、统计设定时间段内满足设定条件的负面信息的数量,根据设定时间段内满足设定条件的负面信息的数量计算负面信息传播系数,根据负面信息传播系数和设定的传播系数阈值认定超出预定传播力的
7、分别计算负面信息的真实热度和预期热度,根据真实热度与预期热度的差值及设定的差值阈值认定超出预定热度的负面信息;
8、根据超出预定传播力的负面信息和超出预定热度的负面信息认定超出预定影响力的负面信息;
9、将超出预定影响力的负面信息打包成区块,将区块广播并连接至区块链中。
10、进一步地,接收任务调度中心发送的url,解析url并采集url对应网页中的舆情信息,包括:
11、工作节点从任务调度中心的待处理队列的尾部获取url并将获取的url插入工作节点的待处理双端队列的头部;
12、工作节点维护实时更新的负载参数,并定时将负载参数汇报给任务调度中心,工作节点根据任务调度中心以工作节点的负载参数分配的url获取数量而获取url;
13、当待处理双端队列不为空时,从待处理双端队列的尾部弹出url并解析:若获取的是导航页的url,则该导航页中所有url返回任务调度中心并加入待处理队列的头部,若获取的是详情页的url,则对详情页进行解析;
14、根据解析得到的数据的类型对数据进行处理,得到舆情信息;
15、当一工作节点的待处理双端队列为空时,该工作节点广播一个已完成工作的消息,接收消息的繁忙工作节点将未处理的url从其待处理双端队列的尾部弹出并发送给待处理双端队列为空的工作节点处理;
16、其中,根据解析得到的数据的类型对数据进行处理,包括:若数据的类型为文字,保留文字;若数据的类型为音频,根据音频的声音特征将音频转化为文字;若数据的类型为图像,根据图像的像素点将图像转化为二进制形式。
17、进一步地,利用深度学习模型对舆情信息进行分析计算,得到舆情信息的负面系数,根据负面系数和设定的负面系数阈值认定负面信息,包括:
18、将舆情信息输入深度学习模型,得到舆情信息的负面系数n;
19、根据负面系数n和设定的负面系数阈值n0,将满足n>n0的信息认定为负面信息;
20、其中,深度学习模型为改进的卷积神经网络模型,负面系数等于改进的卷积神经网络模型输出的负面情感倾向的概率值,负面系数阈值n0根据当前网络舆情的实际情况调整。
21、进一步地,还包括:
22、工作节点使用sha-256算法对负面信息的账户信息、发布时间、信息内容顺序拼接后的字符串进行处理,得到负面信息的hash值,将负面信息的账户信息、发布时间、信息内容和hash值存储至数据库dbi中;在数据库dbi的存储容量为0前,工作节点将数据库dbi中内容发送至数据库dbw,数据库dbw根据接收到的负面信息的hash值判断该负面信息是否重复存入数据库dbw,若是,则丢弃该接收到的负面信息;
23、其中,数据库表示第i个工作节点维护的数据库,数据库dbw表示独立于工作节点外的数据库。
24、进一步地,统计设定时间段内满足设定条件的负面信息的数量,根据设定时间段内满足设定条件的负面信息的数量计算负面信息传播系数,根据负面信息传播系数和设定的传播系数阈值认定超出预定传播力的负面信息,包括:
25、各工作节点在设定的监听时长内通过其维护的两个计数器统计和,统计完毕的工作节点将广播出去,收到广播的其他工作节点将其统计的更新为+,持续统计与计数器更新,得到一个共同的;
26、计算负面信息传播系数;
27、根据负面信息传播系数和设定的传播系数阈值,将满足>的负面信息认定为超出预定传播力的负面信息;
28、其中,为各工作节点收到的负面信息中相同或相似的数量,为所有负面信息中相同或相似的数量。
29、进一步地,负面信息的真实热度的计算公式为:
30、;
31、式中,为时刻负面信息的真实热度,、和分别为、和时刻负面信息的信息热度,、和通过<mi>d(t)</mi><mi>≈</mi><mfrac><mstyle displaystyle="false"><munderover><mo>∑</mo><mi>t</mi><mi>t+δt</mi></munderover><mrow><mi>[</mi><msub><mi>c</mi><mi>r</mi></msub><mi>(x)</mi><mi></mi><mi>+10</mi><mi>*</mi><msub><mi>c</mi><mi>l</mi></msub><mi>(x)+100</mi><mi>*</mi><msub><mi>c</mi><mi>c</mi></msub><mi>(x)+100</mi><mi>*</mi><msub><mi&g本文档来自技高网...
【技术保护点】
1.一种分布式舆情信息监测方法,其特征在于,所述方法由工作节点执行,包括:
2.根据权利要求1所述分布式舆情信息监测方法,其特征在于,接收任务调度中心发送的URL,解析URL并采集URL对应网页中的舆情信息,包括:
3.根据权利要求1所述分布式舆情信息监测方法,其特征在于,利用深度学习模型对舆情信息进行分析计算,得到舆情信息的负面系数,根据负面系数和设定的负面系数阈值认定负面信息,包括:
4.根据权利要求1所述分布式舆情信息监测方法,其特征在于,还包括:
5.根据权利要求1所述分布式舆情信息监测方法,其特征在于,统计设定时间段内满足设定条件的负面信息的数量,根据设定时间段内满足设定条件的负面信息的数量计算负面信息传播系数,根据负面信息传播系数和设定的传播系数阈值认定超出预定传播力的负面信息,包括:
6.根据权利要求5所述分布式舆情信息监测方法,其特征在于,负面信息的真实热度的计算公式为:
7.根据权利要求6所述分布式舆情信息监测方法,其特征在于,根据超出预定传播力的负面信息和超出预定热度的负面信息认定超出预定
8.根据权利要求7所述分布式舆情信息监测方法,其特征在于,区块包括区块头和区块体,在设定时间内出现的多条舆情信息存储在同一区块体中并组织成一棵Merkle Tree,Merkle Tree的根哈希值存储在区块头中,一条舆情信息包括超出预定影响力的负面信息的账户信息、负面系数、传播系数、热度系数、信息内容和信息内容的Hash值;
9.一种分布式舆情信息监测系统,其特征在于,包括任务调度中心和工作节点,所述任务调度中心与多个所述工作节点构成树状网络结构,各所述工作节点间构成P2P网络结构,所述工作节点包括:
10.根据权利要求9所述分布式舆情信息监测系统,其特征在于,所述任务调度中心被配置为:
...【技术特征摘要】
1.一种分布式舆情信息监测方法,其特征在于,所述方法由工作节点执行,包括:
2.根据权利要求1所述分布式舆情信息监测方法,其特征在于,接收任务调度中心发送的url,解析url并采集url对应网页中的舆情信息,包括:
3.根据权利要求1所述分布式舆情信息监测方法,其特征在于,利用深度学习模型对舆情信息进行分析计算,得到舆情信息的负面系数,根据负面系数和设定的负面系数阈值认定负面信息,包括:
4.根据权利要求1所述分布式舆情信息监测方法,其特征在于,还包括:
5.根据权利要求1所述分布式舆情信息监测方法,其特征在于,统计设定时间段内满足设定条件的负面信息的数量,根据设定时间段内满足设定条件的负面信息的数量计算负面信息传播系数,根据负面信息传播系数和设定的传播系数阈值认定超出预定传播力的负面信息,包括:
6.根据权利要求5所述分布式舆情信息监测方法,其特征在于,...
【专利技术属性】
技术研发人员:韩洋,巩轩池,徐阳,刘腾骏,付章杰,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。