System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于义原预测的工业知识图谱验证方法,属于知识图谱。
技术介绍
1、hownet是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库,主要面向中文的词汇与概念。hownet秉承还原轮思想,认为词汇和词义可以用更小的语义单位来描述。这种语义单位被称为义原,顾名思义就是原子语义,既最基本的、不宜再分割的最小语义单位。义原自问世以来,受到自然语言处理领域的广泛关注,国内外学者在词汇语义消歧、相似度计算、文本分类等方面探索了义原的重要应用价值。由于每天都有新的单词和短语出现,并且现有概念的语义不断变化,因此对于人类专家来说,注释新的单词和短语是费时费力的,因此在词汇义原自动标注方面,谢若冰等人提出了义原预测任务,该任务是在hownet义原集合中选择出适合构建新概念的def描述的义原子集。义原预测任务能很好的解决没有hownet背景知识和未经专门训练的人员难以较好地完成义原标注任务。
2、知识图谱是一种以图结构或拓扑结构模型来整合数据的知识数据库,由一系列相互连接的实体(物体、事件、情景等)和它们的属性构成,它是一种半结构化或结构化的数据模型,旨在捕捉和组织大量的知识。知识图谱能够允许人或计算机以一种高效且没有歧义的方式,对网络中的数据进行处理和使用。知识图谱的组织和存储形式多种多样,其中最常用的是由w3c提出的资源描述框rdf,该框架以三元组<主体-关系-客体>的形式表达实体之间的关系,这种存储形式为知识图谱的构建和存储提供了很大的便利。目前知识图谱可应用到各个领域,以便在不同领域中,提供知识化
3、目前,知识图谱在工业领域也得到了广泛应用。但是,在工业企业领域,工业数据中常常存在噪音、异常值和不完整的数据。这可能由传感器故障、设备故障、人为错误或其他干扰因素引起。所以由工业数据为基础构建而成的知识图谱存在许多错误,它们通常是由数据录入、数据整合或数据处理过程中的错误引入,常见的错误类别有实体错误、关系错误、属性错误、逻辑错误。如果不对知识图谱的错误进行检测,不仅会影响知识图谱的质量,更会影响其下游任务例如问答系统、信息检索、推荐系统、实体链接、语义搜索等的质量。因此急需一种快速且可靠的方法检测工业知识图谱的错误的方法,使其知识图谱的质量有所保障。
技术实现思路
1、本专利技术针对上述
技术介绍
所提及的技术问题,而采用以下技术方案来实现:
2、基于义原预测的工业知识图谱验证方法,包括以下步骤:
3、s1、预处理数据,基于预处理数据建立义原预测模型和对预处理数据进行规则挖掘;
4、s2、训练步骤s1所述的义原预测模型得训练模型;
5、s3、基于步骤s1中的规则挖掘和步骤s2中的训练模型,验证知识图谱得验证后的知识图谱。
6、作为优选实例,预处理数据的步骤为:需获取义原训练模型的训练数据集和对结构化未标注的文本数据集进行文本标注。
7、进一步的,按照下列方法获取义原训练模型的训练数据集:
8、步骤1、获得工业数据的非结构化文本和大型语料库的数据;
9、步骤2、对步骤1中所述的非结构化文本进行清洗数据、缺失值填充、分句分词的预处理,得到结构化未标注的文本数据集;
10、步骤3、标注结构化未标注的文本数据集,得标注后数据;
11、步骤4、对步骤3中的标注后数据和大型语料库的数据整合后得训练数据集。
12、更进一步的,步骤2中,文本数据集记为y={y1,y2,...,yi,...,yn},其中,n表示一个批次中的句子的数目;yi表示第i个句子,并且其中m表示句子中的单词个数;表示第i个句子yi中第j个单词。
13、按照下列方法对步骤3中的结构化未标注的文本数据集进行文本标注,且文本标注计为y:
14、d1、对句子中存在的工业实体进行人工标注,得实体类型;
15、d2、对句子中的实体之间存在关系进行人工标注,得关系类型;
16、d3、对句子中的实体进行人工标注义原,得义原类型;
17、d4、对关系对中的头实体指向尾实体的义原进行人工标注,得到义原集。
18、更进一步的,步骤d1中,实体类型记为:e={e1,e2,...,ek,...,en},其中n表示实体类型总数;其中ek表示第k种实体类型;步骤d2中,关系类型记为r={r1,r2,...,rl,...,rm},其中m表示实体间关系类型的总数;rl表示第l种关系类型,第i个句子中的三元组记为,其中表示第i个句子yi的第k个三元组,表示第k个头实体,表示第k个尾实体,表示三元组的关系类型,表示第k个头实体的实体类型,表示第k个尾实体的实体类型;步骤d3中,义原类型记为s={s1,s2,...,sz,...sv},其中v表示实体中存在的义原类型总数;sz表示第z种义原类型;步骤d4中,义原集记为表示第1个头实体的义原指向第1个尾实体的义原;
19、作为优选实例,步骤s1中,按照下列方式建立义原预测模型:
20、步骤一、建立预训练字符增强词向量模型;
21、步骤二、基于步骤一中的预训练字符增强词向量模型,搭建义原预测模型的字符加强模型;
22、步骤三、基于步骤二中所构建的编码的词向量,搭建义原预测模型的位置得分模型。
23、步骤四、基于字符加强模型和位置得分模型搭建义原预测模型。
24、优选的,在步骤一中,将字符嵌入、类型嵌入、位置嵌入、分割嵌入相加作为输入对象,建立预训练字符增强词向量模型。
25、进一步,在步骤一中,建立预训练字符增强词向量模型的方法为:使用掩码transformer encoder作为预训练字符增强词向量模型,该模型以多头自注意力机制为基本架构,其掩码自注意力训练过程公式如下:
26、
27、其中x∈rn×d,x为输入序列的表示,为输出序列的表示,t为转置符号,n表示序列中token的数目,d和dk为每个token的维度,softmax()为激活函数。其wq,wk,是可学习参数,m为自注意力矩阵且m∈rn×n;
28、在步骤二中,搭建义原预测模型的字符加强模型,首先构建其编码器,利用编码器将与单词相关的信息编码成向量,首先将每个词中的字符进行词嵌入的拼接,其公式如下:
29、
30、其ci表示词中的第i个字符,wu为投影矩阵,ui为预训练得到字符增强词嵌入,为拼接完成后的词向量;拼接完成后将其传入bi-lstm编码;将两个方向上最后一个隐藏状态的连接记为h并传入多标签分类器,其公式如下:
31、
32、其中w∈r|s|×2l,b∈r|s|,w为大型语料库预训练词向量,bi-lstm为双向长短期记忆网络,w为投影矩阵,b为偏置量,l表示单个方向上隐层状态的维数,其sg为所求词的义原得分;
33、在步骤三中,搭建本文档来自技高网...
【技术保护点】
1.基于义原预测的工业知识图谱验证方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的验证方法,其特征在于:所述预处理数据包括:对工业数据的非结构化文本和大型语料库的数据进行预处理,和对结构化未标注的文本数据集进行文本标注,获取义原训练模型的训练数据集。
3.根据权利要求2所述的验证方法,其特征在于:按照下列方法获取义原训练模型的训练数据集:
4.根据权利要求3所述的验证方法,其特征在于:按照下列方法对步骤3中的结构化未标注的文本数据集进行文本标注,且文本标注计为Y:
5.根据权利要求1所述的验证方法,其特征在于,在步骤S1中,按照下列方式建立义原预测模型:
6.根据权利要求5所述的验证方法,其特征在于:在步骤一中,将字符嵌入、类型嵌入、位置嵌入、分割嵌入相加作为输入对象,用于建立预训练字符增强词向量模型。
7.根据权利要求4所述的验证方法,其特征在于:在步骤S1中,按照下列方法对预处理数据进行规则挖掘:
8.根据权利要求5所述的验证方法,其特征在于:在步骤S2中,按照下列方式得到训练模型:
9.根据权利要求4所述的验证方法,其特征在于:在步骤S3中,按照下列方式验证知识图谱得验证后的知识图谱:
...【技术特征摘要】
1.基于义原预测的工业知识图谱验证方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的验证方法,其特征在于:所述预处理数据包括:对工业数据的非结构化文本和大型语料库的数据进行预处理,和对结构化未标注的文本数据集进行文本标注,获取义原训练模型的训练数据集。
3.根据权利要求2所述的验证方法,其特征在于:按照下列方法获取义原训练模型的训练数据集:
4.根据权利要求3所述的验证方法,其特征在于:按照下列方法对步骤3中的结构化未标注的文本数据集进行文本标注,且文本标注计为y:
5.根据权利要求1所述的验证...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。