一种基于实体识别和关系抽取的数据挖掘分析方法技术

技术编号：42572992 阅读：26 留言：0更新日期：2024-08-29 00:38

本发明专利技术公开了一种基于实体识别和关系抽取的数据挖掘分析方法，收集档案资料并分类整理，通过初步数据识别和数据清理获得档案文本数据；利用BERT‑BiLSTM‑CRF实体识别模型对档案文本数据进行实体识别，输出带有实体标记的结果；结合Pkuseg、CBOW和BiLSTM，引入词注意力机制，对带有实体标记的结果进行实体关系抽取获得实体之间的关系；基于图结构、嵌入表示和深度强化学习的方法，对实体及其关系进行混合知识推理获得知识图谱，实现数字档案数据深层次挖掘与分析，提高档案数据关联度和利用率，充分发挥档案数据的利用价值，辅助用户进行档案关联分析与智能检索，为档案研判决策提供数据支撑，提高智慧档案管理效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及档案数字化管理，具体涉及一种基于实体识别和关系抽取的数据挖掘分析方法。

技术介绍

1、档案作为历史的沉淀和积累，为人类发展提供最根本的依据。随着现代化技术的不断更新和发展，档案数据管理工作也逐步趋向于数字化和信息化。当前档案数据的管理形式主要有电子档案和纸质档案，现有技术中通过传统人工方式进行纸质档案管理，对物理存储空间的需求越来越大，同时给管理者造成巨大的管理工作，而现有通过计算机进行档案数据分类存储、管理时，存在档案数据关联度低，导致档案资源利用程度不高等问题。研究从档案数据实体内容层面进行档案数据管理，对于提高档案数据管理效率、提高档案数据实际利用率等具有重要意义。

2、数据挖掘与分析技术是机器学习和数据库管理的交叉，在数据库管理技术的支撑下从数据库中提取大量数据，通过机器学习技术进行分析，从而挖掘潜在有价值的信息。在档案管理工作中应用数据挖掘与分析技术，已经有很多成功的例子，主要是通过多维数据分析工具、数据挖掘工具等进行数据统计分析层面的分析，但在互联网技术高速发展时代，智慧档案管理需要我们能够挖掘档案更深层的含义，如某一人和其它人的关联关系、和相关机构的关系、和某些事件的关系，从而实现档案研判对象相关人物、城市、事件、著作等的关联分析与推荐，辅助用户进行档案关联分析和智能检索，为档案研判决策提供数据支撑。

技术实现思路

1、本专利技术主要是为了解决现有的数字档案管理中数据关联度和利用率低的问题，提供了一种基于实体识别和关系抽取的数据挖掘分析方法，

2、为了实现上述目的，本专利技术采用以下技术方案。

3、一种基于实体识别和关系抽取的数据挖掘分析方法，包括以下步骤：

4、步骤s1：收集档案资料并分类整理，通过初步数据识别和数据清理获得档案文本数据；

5、步骤s2：利用bert-bilstm-crf实体识别模型对档案文本数据进行实体识别，输出带有实体标记的结果；

6、步骤s3：结合pkuseg、cbow和bilstm，引入词注意力机制，对带有实体标记的结果进行实体关系抽取获得实体之间的关系；

7、步骤s4：基于图结构、嵌入表示和深度强化学习的方法，对实体及其关系进行混合知识推理获得知识图谱。

8、本专利技术提供了一种基于实体识别和关系抽取的数据挖掘分析方法，收集档案资料并分类整理，通过初步数据识别和数据清理获得档案文本数据；通过bert-bilstm-crf实体识别模型进行实体识别，结合pkuseg、cbow和bilstm，引入词注意力机制，进行实体关系抽取，基于图结构、嵌入表示和深度强化学习，对实体及其关系进行混合知识推理获得知识图谱，实现数字档案数据深层次挖掘与分析，提高档案数据关联度和利用率，充分发挥档案数据的利用价值，辅助用户进行档案关联分析与智能检索，为档案研判决策提供数据支撑，提高智慧档案管理效率。

9、作为优选，步骤s2的具体过程，包括以下步骤：

10、步骤s21：利用bert预训练语言模型将文本转化为富含语义的句向量；

11、步骤s22：利用bilstm双向长短期记忆网络模型提取句向量的上下文语义特征，包括使用bilstm的前向层lstm获得上文的语义特征，使用后向层lstm获得下文的语义特征，再将两者结合获取最终的特征；

12、步骤s23：利用crf条件随机场对步骤s22输出的标签添加约束条件后，输出最优标签序列。

13、本专利技术通过bert-bilstm-crf模型进行实体识别，该模型主要包括三个部分，首先是bert预训练语言模型，将档案的非结构化文本数据转化为向量形式并提取出蕴含在数据中的丰富语义特征，再通过bilstm模型进一步提取出数据中的上下文特征，最后通过crf添加约束条件，减少错误序列的产生，并输出最终的标记序列。crf(条件随机场)技术为模型输出的标签施加了必要的约束和限制，有效避免了不合理的实体标签的出现。

14、作为优选，步骤s21中，作为bert的关键部分，基于自注意力机制的transformer编码器，通过在全文数据中计算每个句与其他句之间的关联程度来调整权重稀疏矩阵，从而获得句的特征向量的表达。

15、本专利技术使用预训练好的中文bert模型，获取上下文本中的丰富语义信息，采用transformers进行预训练，以此生成深层的双向语言表征信息。

16、作为优选，步骤s22的具体过程，包括以下步骤：

17、步骤s221：计算遗忘门，选择要遗忘的信息；输入为当前模块的文本数据和前一模块的文本数据的输出ht-1，将前一个神经元细胞状态映射到0～1，0表示完全删除，1表示完全保留，计算公式如下：

18、ft＝σ(wfxt+ufht-1+vfct-1)；

19、步骤s222：计算记忆门，选择要记忆的信息；输入为当前模块的文本数据和前一模块的文本数据的输出ht-1，通过输入层sigmoid激活函数决定需要更新的值it，用tanh函数创建新的候选值向量并将其加入神经元状态中，对神经元状态进行更新得到ct，计算公式如下：

20、it＝σ(wixt+uiht-1+vict-1)；

21、

22、

23、步骤s223：计算输出门和当前时刻隐藏层状态，选择输出的值；通过输出层的sigmoid激活函数决定输出神经元状态的部分ot，将神经元状态通过tanh函数处理，并和sigmoid门的输出相乘，得到最终输出的部分ht，计算公式如下：

24、ot＝σ(woxt+uoht-1+voct)；

25、ht＝ot⊙tanh(ct)。

26、lstm模型是一种特殊的循环神经网络，该网络结构中隐藏单元的内部结构十分复杂，通过引入记忆单元和门控记忆单元保存历史信息、长期状态，使用门控来控制信息的流动，有效的实现了上下文信息的存储和更新。lstm的结构包括：遗忘门、输入门和输出门。计算过程为：利用上一时刻的外部状态ht-1和当前时刻的输入xt，计算出三个门，以及候选状态结合遗忘门ft和输入门it来更新记忆单元ct；结合输出门ot，将内部状态的信息传递给外部状态ht。但是lstm进行特征提取时还存在一个问题：无法编码从后到前的信息。例如，“小明的学习成绩很好”，这里的“很好”是对“学习成绩”的一种修饰。为解决这一问题，将前向lstm和反向lstm结合成为bilstm，可以更好地捕捉双向的语义依赖。在bilstm的细胞单元中，引入了独特的“门”本文档来自技高网...

【技术保护点】

1.一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤S2的具体过程，包括以下步骤：

3.根据权利要求2所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤S21中，作为BERT的关键部分，基于自注意力机制的Transformer编码器，通过在全文数据中计算每个句与其他句之间的关联程度来调整权重稀疏矩阵，从而获得句的特征向量的表达。

4.根据权利要求2或3所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤S22的具体过程，包括以下步骤：

5.根据权利要求1或2或3所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤S2中所述BERT-BiLSTM-CRF实体识别模型的构建过程，具体包括以下步骤：

6.根据权利要求1所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤S3的具体过程，包括以下步骤：

7.根据权利要求6所述的一种基于实体识别

8.根据权利要求1所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤S4的具体过程，包括以下步骤：

9.根据权利要求8所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤S42的具体过程，包括以下步骤：

10.根据权利要求1或2或3或6或7或8或9所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤S1的具体过程，包括以下步骤：

...

【技术特征摘要】

1.一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤s2的具体过程，包括以下步骤：

3.根据权利要求2所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤s21中，作为bert的关键部分，基于自注意力机制的transformer编码器，通过在全文数据中计算每个句与其他句之间的关联程度来调整权重稀疏矩阵，从而获得句的特征向量的表达。

4.根据权利要求2或3所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤s22的具体过程，包括以下步骤：

5.根据权利要求1或2或3所述的一种基于实体识别和关系抽取的数据挖掘分析方法，其特征在于，步骤s2中所述bert...

【专利技术属性】
技术研发人员：刘宁波，陈超，徐军，张曾翔，舒莹，汪书润，李锟蛟，
申请(专利权)人：安徽明生恒卓科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人