基于NLP的信息预警计算方法及装置制造方法及图纸

技术编号：41965288 阅读：10 留言：0更新日期：2024-07-10 16:47

本发明专利技术实施例中提供了一种基于NLP的信息预警计算方法、装置及电子设备，属于数据处理技术领域，该方法包括：在预设时间段内从n个在线信息平台实时采集文本数据，形成异构数据集合；将所述异构数据集合转变为标准数据集合；对所述标准数据集合B={B1,B2,…,Bn}执行特征提取，得到信息特征向量K=[E,S,I,R]；基于预先定义的评价函数G，对所述信息特征向量K进行数值计算，得到所述标准数据集合B的信息评价值Zp=G(B,K)，以便于基于所述信息评价值Zp决定是否需要对所述n个在线信息平台实时采集的文本数据进行信息预警。本方案能够全面提升信息监测的效率、准确性和响应速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种基于nlp的信息预警计算方法、装置及电子设备。

技术介绍

1、网站信息预警是一个系统化的过程，对网站内部和外部的信息流进行实时监控，以便及时发现潜在的威胁、异常或关键事件，通过提供及时、准确、可靠的信息，支持网站管理者或相关部门的决策制定和行动应对，从而维护网站的安全和稳定。

2、现有技术在信息监控的过程中，存在如下问题：

3、1.低效的数据处理能力：现有信息监测工具主要依赖于关键词搜索和简单的模式匹配技术，这限制了它们在处理大规模和动态变化的数据流时的效率。这种方法在实时监测多个数据源时表现不佳，因为它无法快速适应新的数据格式或突发的信息主题。

4、2.有限的语义理解：传统信息工具缺乏深入的语义理解能力，通常无法准确解析复杂的语言表达，如讽刺、双关语或隐喻。这种表面级的文本分析导致对信息的误解和误报，特别是在分析社交媒体内容时。

5、3.对情感的粗糙分析：现有系统在情感分析上通常只能区分基本的正面和负面情绪，对于更细致的情感层次和强度无能为力。这种粗糙的情感识别不足以精确评估信息的影响力和紧急程度。

6、4.反应速度慢：由于缺乏高度自动化的监测和响应机制，现有技术在识别到潜在的信息危机时，响应时间长，常常错失最佳的干预时机。

7、上述问题成为需要解决的技术问题。

技术实现思路

1、有鉴于此，本专利技术实施例提供一种基于nlp的信息预警计算方法、装置及电子设备，至少部分解决现有技术中存在的问题。

2、第一方面，本专利技术实施例提供了一种基于nlp的信息预警计算方法，包括：

3、在预设时间段内从n个在线信息平台实时采集文本数据，形成异构数据集合d={d1,d2,…,dn}；

4、对所述异构数据集合d={d1,d2,…,dn}执行去噪、语言检测、标准化、词性标注和命名实体识别操作后，将所述异构数据集合d={d1,d2,…,dn}转变为标准数据集合b={b1,b2,…,bn}；

5、对所述标准数据集合b={b1,b2,…,bn}执行特征提取，得到信息特征向量k=[e,s, i, r]，e表示标准数据集合的情感强度，s表示标准数据集合的主题敏感性，i表示标准数据集合的发布者影响力，r表示标准数据集合的信息传播范围；

6、基于预先定义的评价函数g，对所述信息特征向量k进行数值计算，得到所述标准数据集合b的信息评价值zp=g(b,k)，以便于基于所述信息评价值zp决定是否需要对所述n个在线信息平台实时采集的文本数据进行信息预警。

7、根据本公开实施例的一种具体实现方式，所述在预设时间段内从n个在线信息平台实时采集文本数据，形成异构数据集合d={d1,d2,…,dn}，包括：

8、使用预先配置的api和定制的信息下载程序从n个在线信息平台实时自动采集数据，并将采集到的数据按照预先定义的数据格式进行存储。

9、根据本公开实施例的一种具体实现方式，所述在预设时间段内从n个在线信息平台实时采集文本数据，形成异构数据集合d={d1,d2,…,dn}，还包括：

10、部署并配置kafka集群，确保集群能够处理预期的数据量和吞吐量，创建kafka主题，每个主题对应一个或多个在线信息平台；

11、对于每个在线信息平台，开发或配置数据采集器，数据采集器能够实时地从信息平台获取文本数据，并将其发送到kafka集群；

12、数据采集器使用kafka客户端库将数据发送到kafka集群的相应主题，通过配置kafka producer的参数以优化吞吐量；

13、通过增加代理节点和调整分区数量方式，调整kafka集群的配置，以应对数据量的变化；

14、使用kafka消费者从kafka集群中读取数据流，消费者连接到不同的主题，以便于根据业务需求使用流处理框架来处理数据流；

15、将处理后的数据根据需要存储到不同的系统或数据库中，形成异构数据集合d={d1,d2,…,dn}。

16、根据本公开实施例的一种具体实现方式，所述对所述异构数据集合d={d1,d2,…,dn}执行去噪、语言检测、标准化、词性标注和命名实体识别操作后，将所述异构数据集合d={d1,d2,…,dn}转变为标准数据集合b={b1,b2,…,bn}，包括：

17、使用自定义的清洗函数来移除html标签、广告、重复文本、特殊字符；

18、使用语言检测库来识别文本的语言，并标记或过滤掉非目标语言的文本；

19、将所有文本转换为小写，去除标点符号、停用词，将单词转换为其基本形式，将所有文本使用相同的字符编码，将文本数据转换为统一的格式或表示形式；

20、使用词性标注工具来分析文本并生成词性标签，为文本中的每个单词或词组分配一个词性标签；

21、使用命名实体识别工具来检测并标记文本中的命名实体，从文本中识别出具有特定意义的实体。

22、根据本公开实施例的一种具体实现方式，所述对所述标准数据集合b={b1,b2,…,bn}执行特征提取，得到信息特征向量k=[e, s, i, r]，包括：

23、使用基于机器学习的方法，基于文本中情感词汇的频率和极性分数，对每个数据集 bi 中的文本进行情感分析，并计算整体的情感强度得分；

24、使用主题建模方式来识别文本数据中的主题，对识别出的主题进行敏感性评估，根据主题在数据集中出现的频率或权重来计算主题敏感性得分；

25、获取标准数据集合中包含的发布者信息以及发布者的元数据，使用元数据来评估发布者的影响力，并为每个数据集 bi 计算发布者影响力得分；

26、如果数据集中包含与信息传播相关的直接指标，使用直接指标来衡量信息传播范围，如果没有直接指标，使用搜索量、提及量、网络图分析中的传播路径作为间接指标来估计信息传播范围；

27、将每个数据集 bi 的情感强度ei、主题敏感性si、发布者影响力ii和信息传播范围ri得分组合成一个特征向量 ki，将所有数据集的特征向量汇总成信息特征向量集合 k。

28、根据本公开实施例的一种具体实现方式，所述对所述标准数据集合b={b1,b2,…,bn}执行特征提取，得到信息特征向量k=[e, s, i, r]，还包括：

29、通过三个元数据指标来衡量发布者的影响力：关注用户数 f、阅读量r和权威性a，每个指标都分配特定的权重，发布者影响力得分的计算公式如下：

30、

31、、、是标准数据集合 bi 的关注用户数、阅读量和权威性指标值，min() 和max() 分别表示最小值和最大值。

32、根据本公开实施例的一种具体实现方式，所述对所述标准数据集合b={b1,b2,…,bn}执行特征提取，得到信息特征向量k=[e, s, i, r]，还包括：

33、针对数本文档来自技高网...

【技术保护点】

1.一种基于NLP的信息预警计算方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在预设时间段内从n个在线信息平台实时采集文本数据，形成异构数据集合D={D1,D2,…,Dn}，包括：

3.根据权利要求2所述的方法，其特征在于，所述在预设时间段内从n个在线信息平台实时采集文本数据，形成异构数据集合D={D1,D2,…,Dn}，还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述异构数据集合D={D1,D2,…,Dn}执行去噪、语言检测、标准化、词性标注和命名实体识别操作后，将所述异构数据集合D={D1,D2,…,Dn}转变为标准数据集合B={B1,B2,…,Bn}，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述标准数据集合B={B1,B2,…,Bn}执行特征提取，得到信息特征向量K=[E, S, I, R]，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述标准数据集合B={B1,B2,…,Bn}执行特征提取，得到信息特征向量K=[E, S, I, R]，还包括：</p>

7.根据权利要求6所述的方法，其特征在于，所述对所述标准数据集合B={B1,B2,…,Bn}执行特征提取，得到信息特征向量K=[E, S, I, R]，还包括：

8.根据权利要求7所述的方法，其特征在于，所述基于预先定义的评价函数G，对所述信息特征向量K进行数值计算，得到所述标准数据集合B的信息评价值Zp=G(B,K)，包括：

9.一种基于NLP的信息预警计算装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.一种基于nlp的信息预警计算方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在预设时间段内从n个在线信息平台实时采集文本数据，形成异构数据集合d={d1,d2,…,dn}，包括：

3.根据权利要求2所述的方法，其特征在于，所述在预设时间段内从n个在线信息平台实时采集文本数据，形成异构数据集合d={d1,d2,…,dn}，还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述异构数据集合d={d1,d2,…,dn}执行去噪、语言检测、标准化、词性标注和命名实体识别操作后，将所述异构数据集合d={d1,d2,…,dn}转变为标准数据集合b={b1,b2,…,bn}，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述标准数据集合b={b1,b2...

【专利技术属性】
技术研发人员：彭浩，寇振芳，张江华，李蕾，
申请(专利权)人：一网互通北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人