System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及工业领域,特别是工业领域的知识图谱的创建方法、装置、电子设备及介质。
技术介绍
1、知识图谱(knowledge graph)以结构化的形式描述客观世界中的概念、实体及其关系。它是融合了认知计算、知识表示与推理、信息检索与提取、自然语言处理、web技术、机器学习与大数据挖掘的交叉学科。
2、近些年工业领域开始青睐将知识图谱作为图形显示方法,以实现工业设备数据采集、知识分类、知识存储和知识分析等应用。将知识图谱引入工业领域解决了工业领域的知识构建的问题。但是,工业领域的信息相比其它领域更加杂乱无序,且很多信息来源于非结构化文本。因此对此信息进行语义分析、提取出可用于绘制知识图谱的知识单元并找出知识单元之间的联系就显得极为重要。
3、然而,构建知识图谱需要大量工作。
技术实现思路
1、本专利技术的实施方式提出工业领域的知识图谱的创建方法、装置、电子设备及介质。
2、在第一方面中,提供一种工业领域的知识图谱的创建方法。所述方法包括:
3、从工业领域的第一子领域中的第一数据源获取第一非结构化数据,其中第一非结构化数据带有知识标注;
4、对第一非结构化数据执行机器学习,以生成适于提取知识的第一模型;
5、基于第一模型,从第一数据源提供的第二非结构化数据中提取第一知识,其中第二非结构化数据不带有知识标注;
6、从工业领域的第二子领域中的第二数据源获取第一结构化数据和第一半结构化数据;
8、从第一半结构化数据中提取第三知识;以及
9、基于第一知识、第二知识和第三知识,构建融合第一子领域和第二子领域的知识图谱,其中第一知识、第二知识和第三知识均以三元组的形式表示。
10、因此,可以构建融合多个子领域的知识图谱。
11、优选地,其中第一子领域中的非结构化数据占比大于预定阈值,且第二子领域中的非结构化数据占比小于所述阈值。
12、因此,对于非结构化数据占比较大的子领域,从非结构化数据中提取知识,对于非结构化数据占比较小的子领域,则从结构化数据或半结构化数据中提取知识。因此,通过融合获取的知识图谱实现了领域广泛性、数据全面性与实现难度之间的良好折衷。
13、优选地,其中第一子领域与第二子领域属于相同的工业类别。
14、因此,对于相互接近的子领域,通过这种差异化的知识提取策略,可以取得良好的折衷效果。
15、优选地,其中第一子领域与第二子领域属于相同的工业子类别。
16、因此,对于相互特别接近的子领域,通过这种差异化的知识提取策略,可以取得更好的折衷效果。
17、优选地,所述方法还包括:
18、从第一数据源获取第二结构化数据和第二半结构化数据;
19、从第二结构化数据中提取第四知识;
20、从第二半结构化数据中提取第五知识;
21、其中基于第一知识、第二知识和第三知识,构建融合第一子领域和第二子领域的知识图谱包括:
22、基于第一知识、第二知识、第三知识、第四知识和第五知识,构建知识图谱。
23、因此,可以进一步丰富知识图谱。
24、优选地,其中构建融合第一子领域和第二子领域的知识图谱包括:
25、基于第一知识、第四知识和第五知识,构建第一子领域的知识图谱;
26、基于第二知识和第三知识,构建第二子领域的知识图谱;
27、将第一子领域的知识图谱和第二子领域的知识图谱组合成第一子领域和第二子领域的知识图谱;
28、其中将第一子领域的知识图谱中的实体的属性与第二子领域的知识图谱中的实体的相应属性进行对比,确定第一子领域的知识图谱中的实体与第二子领域的知识图谱中的实体之间的相似度;当相似度高于预设阈值时,组合第一子领域的知识图谱中的实体与第二子领域的知识图谱中的实体。
29、因此,通过组合相似度高的实体,提高了知识图谱的准确度。
30、在第二方面中,提供一种工业领域的知识图谱的创建装置,所述装置包括:
31、第一获取模块,其被配置成从工业领域的第一子领域中的第一数据源获取第一非结构化数据,其中第一非结构化数据带有知识标注;
32、执行模块,其被配置成对第一非结构化数据执行机器学习,以生成适于提取知识的第一模型;
33、第一提取模块,其被配置成基于第一模型,从第一数据源提供的第二非结构化数据中提取第一知识,其中第二非结构化数据不带有知识标注;
34、第二获取模块,其被配置成从工业领域的第二子领域中的第二数据源获取第一结构化数据和第一半结构化数据;
35、第二提取模块,其被配置成从第一结构化数据中提取第二知识;
36、第三提取模块,其被配置成从第一半结构化数据中提取第三知识;以及
37、构建模块,其被配置成基于第一知识、第二知识和第三知识,构建融合第一子领域和第二子领域的知识图谱,其中第一知识、第二知识和第三知识均以三元组的形式表示。
38、因此,可以构建融合多个子领域的知识图谱。
39、优选地,第一子领域中的非结构化数据占比大于预定阈值,且第二子领域中的非结构化数据占比小于所述阈值。
40、因此,对于非结构化数据占比较大的子领域,从非结构化数据中提取知识,对于非结构化数据占比较小的子领域,则从结构化数据或半结构化数据中提取知识。因此,通过融合获取的知识图谱实现了领域广泛性、数据全面性与实现难度之间的良好折衷。
41、优选地,其中第一子领域与第二子领域属于相同的工业类别。
42、因此,对于相互接近的子领域,通过这种差异化的知识提取策略,可以取得良好的折衷效果。
43、优选地,其中第一子领域与第二子领域属于相同的工业子类别。
44、因此,对于相互特别接近的子领域,通过这种差异化的知识提取策略,可以取得更好的折衷效果。
45、优选地,其中:
46、第一获取模块被配置成从第一数据源获取第二结构化数据和第二半结构化数据;
47、第一提取模块被配置成从第二结构化数据中提取第四知识,且从第二半结构化数据中提取第五知识;
48、构建模块被配置成基于第一知识、第二知识、第三知识、第四知识和第五知识,构建知识图谱。
49、因此,可以进一步丰富知识图谱。
50、优选地,其中构建模块被配置成基于第一知识、第四知识和第五知识构建第一子领域的知识图谱;基于第二知识和第三知识构建第二子领域的知识图谱;将第一子领域的知识图谱和第二子领域的知识图谱组合成第一子领域和第二子领域的知识图谱;其中将第一子领域的知识图谱中的实体的属性与第二子领域的知识图谱中的实体的相应属性进行对比,确定第一子领域的知识图谱中的实体与第二子领域的知识图谱中本文档来自技高网...
【技术保护点】
1.一种工业领域的知识图谱的创建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一子领域中的非结构化数据占比大于预定阈值,且所述第二子领域中的非结构化数据占比小于所述阈值。
3.根据权利要求2所述的方法,其特征在于,所述第一子领域与所述第二子领域属于相同的工业类别。
4.根据权利要求3所述的方法,其特征在于,所述第一子领域与所述第二子领域属于相同的工业子类别。
5.根据权利要求1-4中任一项所述的方法,其特征在于,还包括:
6.根据权利要求5所述的方法,其特征在于,所述构建融合所述第一子领域和所述第二子领域的知识图谱包括:
7.一种工业领域的知识图谱的创建装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述第一子领域中的非结构化数据占比大于预定阈值,且所述第二子领域中的非结构化数据占比小于所述阈值。
9.根据权利要求8所述的装置,其特征在于,所述第一子领域与所述第二子领域属于相同的工业类别。
10.根据权利要求9所述的装置,其特
11.根据权利要求7所述的装置,其特征在于:
12.根据权利要求11所述的装置,其特征在于,所述构建模块(407)被配置成基于所述第一知识、所述第四知识和所述第五知识构建所述第一子领域的知识图谱;基于所述第二知识和所述第三知识构建所述第二子领域的知识图谱;将所述第一子领域的所述知识图谱和所述第二子领域的所述知识图谱组合成所述第一子领域和所述第二子领域的知识图谱;其中将所述第一子领域的所述知识图谱中的实体的属性与所述第二子领域的所述知识图谱中的实体的相应属性进行对比,确定所述第一子领域的所述知识图谱中的所述实体与所述第二子领域的所述知识图谱中的所述实体之间的相似度;当所述相似度高于预设阈值时,组合所述第一子领域的所述知识图谱中的所述实体与所述第二子领域的所述知识图谱中的所述实体。
13.一种电子设备,其特征在于,包括处理器(501)和存储器(502),其中所述处理器(501)能够执行的应用程序存储在所述存储器(502)中,以用于使所述处理器(501)执行根据权利要求1至6中任一项所述的工业领域的知识图谱的创建方法。
14.一种计算机可读介质,其特征在于,包括其上存储的计算机可读指令,其中所述计算机可读指令用于根据权利要求1至6中任一项所述的工业领域的知识图谱的创建方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时执行根据权利要求1至6中任一项所述的工业领域的知识图谱的创建方法。
...【技术特征摘要】
【国外来华专利技术】
1.一种工业领域的知识图谱的创建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一子领域中的非结构化数据占比大于预定阈值,且所述第二子领域中的非结构化数据占比小于所述阈值。
3.根据权利要求2所述的方法,其特征在于,所述第一子领域与所述第二子领域属于相同的工业类别。
4.根据权利要求3所述的方法,其特征在于,所述第一子领域与所述第二子领域属于相同的工业子类别。
5.根据权利要求1-4中任一项所述的方法,其特征在于,还包括:
6.根据权利要求5所述的方法,其特征在于,所述构建融合所述第一子领域和所述第二子领域的知识图谱包括:
7.一种工业领域的知识图谱的创建装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述第一子领域中的非结构化数据占比大于预定阈值,且所述第二子领域中的非结构化数据占比小于所述阈值。
9.根据权利要求8所述的装置,其特征在于,所述第一子领域与所述第二子领域属于相同的工业类别。
10.根据权利要求9所述的装置,其特征在于,所述第一子领域与所述第二子领域属于相同的工业子类别。
11.根据权利要求7所述的装置,其特征在于:
12.根据权利要求11所述的装置,其特征在于,所述...
【专利技术属性】
技术研发人员:张彬,阿明·鲁,范顺杰,陈智民,
申请(专利权)人:西门子股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。