System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术基于大数据的互联网信息智能预警系统,涉及信息处理领域。
技术介绍
1、现有的信息预警系统存在以下不足:
2、分析方法单一:现有系统在进行信息安全的分析过程中,大多依赖深度学习模型,但现有的用于信息识别和预警的数据模型在算法的适应性上存在过度依赖训练数据、模型的可解释性弱、动态调整能力差等明显不足,在互联网信息环境快速变化的当下,现有的数据模型难以快速适应新的数据分布或内容形式,导致预测准确性下降。
3、数据挖掘和特征提取能力不足:现有系统在跨领域信息的整合专利技术比较困难;不同领域的信息结构、术语、规则差异较大,现有系统难以统一标准进行有效整合;现有系统还存在关联分析不足的缺陷:现有系统在处理复杂信息的关联、递进、时间序列等关系上能力有限,影响预警结果的准确性与可信度。
4、误报和漏报风险:现有系统处理的数据大多为:自动采集,人工标注;这种数据获取方式,即会增加人工成本,还会导致系统出现误报和漏报的风险。
技术实现思路
1、针对现有技术存在的不足,本专利技术目的是提供基于大数据的互联网信息智能预警系统,旨在解决信息预警效率低的问题。
2、为了实现上述目的,本专利技术是通过如下的技术方案来实现:基于大数据的互联网信息智能预警系统包括:
3、信息获取模块:用于社交平台上的账号数量,获取每个账号已发布的信息,得到待分析信息;
4、信息分析模块包括:虚假信息分析子模块、不良信息识别子模块以及信息安全监测子模块
5、虚假信息分析子模块:用于对待分析信息进行向量化处理,得到文本向量;利用聚类算法对文本向量进行分簇,得到稳定向量簇;再根据高斯混合模型构建每个稳定向量簇对应的概率分布模型,根据概率分布模型标记出待分析信息中的虚假信息;
6、信息安全监测子模块:用于获取社交平台上单日流量最大的信息,作为ⅰ类信息;获取每个ⅰ类信息在对应基准天的每小时流量,计算自回归系数和误差偏移系数,并构建流量——时间变化方程;获取每个待分析信息在不同时间内的流量,并结合流量——时间变化方程,标记出待分析信息中的危险信息;
7、不良信息识别子模块:用于以hmm模型作为基础模型,构建不良信息识别模型;利用不良信息识别模型分析待分析信息,并标记不良信息;
8、持续监测模块:用于更新待分析信息,并识别。
9、进一步地,所述虚假信息分析子模块的工作流程如下:
10、流程a1:统计社交平台上的账号数量记作pn;
11、获取第1个账号发布的信息数量,记作in(1);以此类推,第pn个账号发布的信息数量,记作in(pn);
12、计算in(1)~in(pn)的和,记作ain;
13、流程a2:将第1至第pn个账号发布的信息,记作te(1,1)~te(pn,in(pn));
14、其中,te(1,1)表示第1个账号发布的第1个信息;以此类推,te(pn,in(pn))表示第pn个账号发布的第in(pn)个信息;
15、流程a3:汇总第1个账号发布的全部信息,得到集合t(1);以此类推,汇总第pn个账号发布的全部信息,得到集合t(pn);
16、依次对集合t(1)~集合t(pn)进行中文分词,得到词语列表to(1)~to(pn);
17、流程a4:将第1个账号发布的全部信息转化为文本向量,得到ve(1,1)~ve(1,in(1));
18、其中,ve(1,1)表示信息te(1,1)的文本向量;以此类推,ve(1,in(1))表示信息te(1,in(1))的文本向量;
19、流程a5:重复将第1个账号发布的信息转化为文本向量的相同流程,把第2至第pn个账号发布的信息转化为文本向量,得到文本向量ve(2,1)~ve(pn,in(pn));
20、其中,ve(2,1)表示第2个账号发布的第1个信息的文本向量;以此类推,ve(pn,in(pn))表示第pn个账号发布的第in(pn)个信息的文本向量。
21、进一步地,所述流程a5的后续流程如下:
22、流程a6:利用聚类算法,对向量ve(1,1)~ve(pn,in(pn))进行分簇处理,得到稳定向量簇;
23、流程a7:统计稳定向量簇的个数,记作cu;
24、统计第1个稳定向量簇中的向量个数,记作an(1)、an(2)~an(cu);
25、其中,an(1)表示第1个稳定向量簇中的向量个数;an(2)表示第2个稳定向量簇中的向量个数;以此类推,an(cu)表示第cu个稳定向量簇中的向量个数;
26、将第1至第cn个稳定向量簇中的向量,记作向量ct(1,1)~ct(cu,an(cu));
27、其中,ct(1,1)表示第1个稳定向量簇中第1个向量;以此类推,ct(cu,an(cu))第cu个稳定向量簇中第an(cu)个向量;
28、流程a8:根据ct(1,1)~ct(1,an(1)),分析第1个稳定向量簇中的虚假信息;
29、流程a9:重复分析第1个稳定向量簇中虚假信息的相同流程,分析第2至第cn个稳定向量簇中的虚假信息。
30、进一步地,所述流程a4的具体流程如下:
31、流程a41:将信息te(1,1)作为目标信息,对目标信息进行文本向量化的转化,得到ve(1,1);
32、对目标信息进行分词处理,得到词语列表tot(1);统计列表tot(1)中词语的数量,记作vc;
33、流程a42:以列表tot(1)为标准文本,计算第1至第vc个词语在目标信息中的词频,得到tf(1,1,1)~tf(1,1,vc);
34、以词语列表to(1)为标准文本,计算第1至第vc个词语在列表to(1)中的逆文档频率,得到idf(1,1,1)~idf(1,1,vc);
35、流程a43:计算目标信息中第1个词语的在列表to(1)~to(pn)中的加权频率,得到q(1,1,1);
36、流程a44:重复计算q(1,1,1)的相同流程,计算目标信息中第2至第vc个词语的在列表to(1)~to(pn)中的加权频率,得到q(1,1,2)~q(1,1,vc);
37、汇总列表to(1)~to(pn)中的全部词语,得到词语列表zt;统计列表zt的词语数量,记作azt;其中,azt≤acy;
38、获取列表zt中,第1至第azt个词的unicode编码,得到unz(1)~unz(azt);
39、流程a45:将列表zt中的词语,按unz(1)~unz(azt)的升序排列,得到列表xt;将列表xt中第1至第azt个词的unicode编码,记作unt(1)~unt(azt);其中,{unt(1)~unt(azt)}⫋{unz(1)~unz(azt)};
40、流程a46本文档来自技高网...
【技术保护点】
1.基于大数据的互联网信息智能预警系统,其特征在于,所述系统包括:
2.根据权利要求1所述的基于大数据的互联网信息智能预警系统,其特征在于,所述虚假信息分析子模块的工作流程如下:
3.根据权利要求2所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程A5的后续流程如下:
4.根据权利要求2所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程A4的具体流程如下:
5.根据权利要求4所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程A43的具体流程如下:
6.根据权利要求3所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程A6的具体流程如下:
7.根据权利要求6所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程A63的后续流程如下:
8.根据权利要求3所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程A8的具体流程如下:
9.根据权利要求1所述的基于大数据的互联网信息智能预警系统,其特征在于,所述信息安全监测子模块的工作流
10.根据权利要求9所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程B4的后续流程如下:
...【技术特征摘要】
1.基于大数据的互联网信息智能预警系统,其特征在于,所述系统包括:
2.根据权利要求1所述的基于大数据的互联网信息智能预警系统,其特征在于,所述虚假信息分析子模块的工作流程如下:
3.根据权利要求2所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程a5的后续流程如下:
4.根据权利要求2所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程a4的具体流程如下:
5.根据权利要求4所述的基于大数据的互联网信息智能预警系统,其特征在于,所述流程a43的具体流程如下:
6.根据权利...
【专利技术属性】
技术研发人员:杨东文,韩昱,陈欣,
申请(专利权)人:北京奥维云网大数据科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。