一种风电知识图谱实体统一方法及系统技术方案

技术编号：43424593 阅读：12 留言：0更新日期：2024-11-27 12:36

本发明专利技术公开了一种风电知识图谱实体统一方法及系统，该方法包括以下步骤：S1、收集文本数据，对文本数据进行预处理及初步标注；S2、构建基于BERT的相似度模型；S3、制作相似性聚类与实体替换词，形成实体替换词典；S4、相似性聚类与构建实体向量库；S5、实体统一与阈值判定模块；本发明专利技术针对实体统一的准确性问题，考虑到规则方法在语义理解上的不足和知识库在量级上的不足，在搭建实体统一程序的流程中，不但融合了传统的相似度算法和向量库构建方法，并且结合了预训练模型，因此能够发挥传统相似度算法和知识库固定范式可迁移利用以及快速计算的优点，也能够借助基于大规模语料训练的模型在语义理解上的优势，达到最优的统一效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及风电机组知识图谱实体统一的，尤其是指一种风电知识图谱实体统一方法及系统。

技术介绍

1、风电行业作为一个高度专业化的
，拥有大量且多样化的文件和资料，这些数据具有专业性强、数据量大、来源多样和更新频繁的特点。知识图谱作为一种高效的语义知识库，通过图结构将实体及其关系系统化组织，为风电行业提供了一个强大的信息管理和决策支持工具。它的优势在于能够整合不同来源和格式的数据，形成统一的知识库，便于管理和访问；利用数据分析和推理功能为运营决策提供科学依据；通过历史数据分析预测设备故障和维护需求，实现风险的早期识别和管理；同时，知识图谱有助于发现新的技术趋势和解决方案，推动行业创新。

2、在构建风电行业知识图谱的过程中，实体融合技术发挥着至关重要的作用。它涉及到识别和合并文本中提及的相同实体，确保不同上下文中提到的同一实体被正确关联起来。实体融合的重要性体现在确保信息的一致性、提高数据准确性、增强检索效率以及促进新知识的发现和应用。通过实体融合，可以统一不同数据源中的实体表示，减少数据不一致或错误导致的误导，使得用户能够快速找到所需信息，并且揭示实体间的潜在联系，为风电行业的持续发展和创新提供支持。因此，实体融合是确保知识图谱质量和有效性的基础，对于风电行业知识图谱的成功构建至关重要。

3、实体融合的主要任务是识别文本中提及的实体，并确定它们是否指向现实世界中的同一个对象。传统意义上，实体融合包括实体消歧、实体统一以及指代消解，其实际定义和实现方法根据应用场景可能有所不同。一般而言，实体消歧指的是

4、现有实体融合相关实现技术如下：1.基于规则的方法：使用预定义的规则和模式来识别和融合实体；2.基于机器学习的方法：利用标注数据训练模型，以自动识别和融合实体；3.深度学习方法：使用神经网络，如循环神经网络和transformer模型，来处理复杂的实体融合任务；4.知识库和本体：利用现有的知识库和本体来辅助实体的识别和融合；随着自然语言处理技术的发展，实体融合的准确性和效率不断提高，对于提升各种nlp应用的性能起到了重要作用。

5、随着现在知识图谱的研究和应用逐渐增加，实体融合的技术也蓬勃发展。目前未找到在风电领域中构建知识图谱所应用的实体融合方法论，但其它领域则有应用：如中国专利技术专利申请cn116796000a和cn116702899a通过限定关系数量的方式进行实体统一。既特定条件下，一个家庭住址应该只属于一户人家，如出现两户人家，则两户人家应该看成同一户人家。这种方法简单易行，但局限较大，比如只能应用在一一对应的实体类型和关系上，但风电实体关系往往会出现一对多或者多对多的情况，比如一个故障问题可以有多种处理手段。其次，这种方法亦缺乏对实体语义的理解，但风电领域中可以有多种同意但表达方式不同的实体，比如“油液过温”、“油液超温”、“油液温度超限”等，因此实体描述存在多样性和复杂性，无法完全依赖规则或者知识库准确进行实体对齐；同时，如果输入数据存在质量问题，如不一致性、错误信息或缺失数据，将直接影响实体融合的准确性和可靠性；此外，随着数据量的增加，如何在有限的计算资源下高效地处理和融合大量实体数据成为一个问题。

6、以上例子说明，现行的方法不能直接迁移到风电业务场景下直接应用，因此提出适用于风电行业的实体统一方法。

技术实现思路

1、本专利技术的目的在于克服现有技术的不足，提出了一种风电知识图谱实体统一方法及系统，从而减轻文本歧义，使得构建的知识图谱结构更丰富联动性更强。文本数据主要集中在巡检工单或检修工单，训练bert相似度模型和word2vec等向量化模型对文本进行分类，并构建实体向量库。当新的实体输入时，使用相似度算法和实体向量库中的实体进行相似度对比，当相似度大于阈值时，认为新实体能够使用实体向量库的实体进行统一。

2、本专利技术的目的通过下述技术方案实现：一种风电知识图谱实体统一方法，包括以下步骤：

3、s1、从风电检修工单中收集文本数据，对文本数据进行清洗及配对的预处理，并对预处理后的文本数据进行初步标注；

4、s2、将初步标注后的文本数据输入到基于bert预训练模型中进行训练，构建基于bert的相似度模型；

5、s3、根据相似度模型，制作相似性聚类与实体替换词，形成实体替换词典；

6、s4、基于word2vec模型将文本数据转换为实体向量，将实体向量分类存储，构建实体向量库；

7、s5、当输入新实体时，若新实体与实体替换词典之间存在对应条目，则使用实体替换词直接替换新实体，若新实体与实体替换词典之间不存在对应条目，则使用相似度模型和实体向量库中的实体进行相似度对比，直至相似度大于预设的阈值时，则认为新实体使用实体向量库的实体进行统一。

8、进一步，所述步骤s1包括：

9、从风电检修工单中收集文本数据，该文本数据作为原始实体，定义正则表达式对原始实体进行清洗，去除标点符号、空字符和带有具体的风机编号信息，随后利用levenshtein距离和jaccard系数相似度算法，对相同属性下表达方式类似的实体进行初步配对形成数据集t；对实体进行初步标注，意思相同的实体为正样本，标记为1，意思不同的实体为负样本，标记为0，使正样本与负样本之间的比例为1:1，并划分成训练集ttrain和测试集ttest，训练集与测试集的比例为4:1。

10、进一步，所述步骤s2包括：

11、首先将每个实体对利用[sep]标识拼接在一起，之后在实体对前加入[cls]标识，实体对的最大长度为512，实际实体对的长度超过最大长度的部分需要进行裁剪，实际实体对的长度不超过最大长度的部分需要利用0补齐，得到的实体对基于bert预训练模型进行向量化编码，维度为768；

12、然后构建训练模型的架构，在现网络架构上修改输出维度即可实现二分类任务，即在bert模型的网络结构末端增加一个输出维度为1的全连接层，之后在全连接层添加一个sigmoid激活函数：

13、

14、其中，x是输入本文档来自技高网...

【技术保护点】

1.一种风电知识图谱实体统一方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种风电知识图谱实体统一方法，其特征在于，所述步骤S1包括：

3.根据权利要求1所述一种风电知识图谱实体统一方法，其特征在于，所述步骤S2包括：

4.根据权利要求3所述一种风电知识图谱实体统一方法，其特征在于，所述设定的训练参数包括迭代次数epoch、每次训练的数据量batch size以及优化器的学习率learningrate。

5.根据权利要求1所述一种风电知识图谱实体统一方法，其特征在于，所述步骤S3包括：

6.根据权利要求1所述一种风电知识图谱实体统一方法，其特征在于，所述步骤S4包括：

7.根据权利要求6所述一种风电知识图谱实体统一方法，其特征在于，所述空间索引结构包括Ball-Tree和KD-Tree。

8.根据权利要求1所述一种风电知识图谱实体统一方法，其特征在于，所述步骤S5包括：

9.一种风电知识图谱实体统一系统，其特征在于，用于实现权利要求1-8任一项所述风电知识图谱实体统一方法，包括：

10.根据权利要求9所述的一种风电知识图谱实体统一系统，其特征在于：

...

【技术特征摘要】

1.一种风电知识图谱实体统一方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种风电知识图谱实体统一方法，其特征在于，所述步骤s1包括：

3.根据权利要求1所述一种风电知识图谱实体统一方法，其特征在于，所述步骤s2包括：

5.根据权利要求1所述一种风电知识图谱实体统一方法，其特征在于，所述步骤s...

【专利技术属性】
技术研发人员：柳雨生，孙启涛，鲁纳纳，陈庆，梁好，段练达，
申请(专利权)人：明阳智慧能源集团股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人