一种质量问题分析报告的实体关系抽取方法及系统技术方案

技术编号:37523437 阅读:11 留言:0更新日期:2023-05-12 15:46
本发明专利技术涉及一种质量问题分析报告的实体关系抽取方法及系统,属于关系抽取技术领域,解决了现有技术中样本不均衡时关系抽取准确率低的问题。包括从质量问题分析报告中提取待推理信息,对待推理信息进行预处理后,传入实体关系抽取模型,推理出实体关系;实体关系抽取模型是基于历史质量问题分析报告构建训练集和测试集,对PCNN模型进行迭代训练和测试,直至模型准确率不小于阈值而得到;其中,训练时根据各关系类别的样本权重更新训练集,根据各训练样本的训练结果动态更新各关系类别标签;测试时根据各测试样本的验证结果计算模型准确率,若模型准确率小于阈值,更新各关系类别的样本权重后再次训练和测试。实现了实体间关系抽取的高准确率。关系抽取的高准确率。关系抽取的高准确率。

【技术实现步骤摘要】
一种质量问题分析报告的实体关系抽取方法及系统


[0001]本专利技术涉及关系抽取
,尤其涉及一种质量问题分析报告的实体关系抽取方法及系统。

技术介绍

[0002]关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从非结构化文本中抽取实体对间的语义关系,实现语义理解与解析,相应的研究成果广泛应用于文本摘要、智能问答和知识图谱等

[0003]传统的关系抽取方法主要为基于特征向量与核函数的方法。其中基于特征向量的关系抽取方法的核心是利用词、词性序列、上下文、依存句法、句法树等构建特征工程提取数据的显式直观特征,通过启发式的方法选取特征集合,使用多层次的语言特征构造向量,关系抽取的速度较快。由于很难找出适合关系抽取任务的新特征,该类方法性能难以提升,因此方法的应用有局限性。基于核函数的关系抽取方法不需要人为构造显性的特征空间,直接文本的字符串或者句法分析的树结构作为输入,是利用卷积核、树核等核函数计算方式,自动提取数据的隐式高维特征,通过计算输入实例之间的相似度训练分类模型。基于核函数的方法可以利用文本的长距离特征,从而在理论上具有高维特征空间,关系抽取的结果优于基于特征向量的方法。但是由于核函数方法利用隐性方式表示特征,从而可能引入噪声信息,不利于判断特征有效性。
[0004]随着近年来深度学习的崛起,深度学习也逐渐应用于实体关系抽取任务中。深度学习的关系抽取任务能避免方法中人工特征选择等步骤,减少并改善特征抽取过程中的误差积累问题。对比传统方法,深度学习的关系抽取方法依靠大量数据集进行算法模型的训练,关系抽取模型的准确率较传统方法有较大的提升。但是,模型对样本数据集具有依赖性,当样本量越充足时,模型的学习和关系表达能力越强,关系抽取也越精准。但是在一些存在样本不均衡特性的领域,比如制造领域,现有关系抽取模型很难得到精准应用,且不具备跨领域泛化能力。因此,在样本不均衡的情况下现有关系抽取模型的能力不足、精度不高,无法满足实际工程应用需要。

技术实现思路

[0005]鉴于上述的分析,本专利技术实施例旨在提供一种质量问题分析报告的实体关系抽取方法,用以解决现有样本不均衡时关系抽取准确率低的问题。
[0006]一方面,本专利技术实施例提供了一种质量问题分析报告的实体关系抽取方法,包括如下步骤:
[0007]从质量问题分析报告中提取待推理信息,对待推理信息进行预处理后,传入实体关系抽取模型,推理出实体关系;
[0008]实体关系抽取模型是基于历史质量问题分析报告构建训练集和测试集,对PCNN模型进行迭代训练和测试,直至模型准确率不小于阈值而得到;其中,训练时根据各关系类别
的样本权重更新训练集,根据训练集中各训练样本的训练结果动态更新各关系类别标签;测试时根据测试集中各测试样本的验证结果计算模型准确率,若模型准确率小于阈值,更新各关系类别的样本权重后再次训练和测试。
[0009]基于上述方法的进一步改进,对待推理信息进行预处理,包括:
[0010]按句对待推理信息进行分词处理,去除其中的停用词,得到每一语句的分词结果;
[0011]根据每一语句的分词结果识别出其中的实体,去除实体数量小于2的语句及其分词结果,剩下的每一语句的分词结果作为一条待推理数据。
[0012]基于上述方法的进一步改进,根据各关系类别的样本权重更新训练集,包括:
[0013]初次训练时,各关系类别的样本权重为1,直接获取训练集,否则,各关系类别的样本权重为上一次训练和测试结束后更新的各关系类别的样本权重,将当前训练集中各关系类别的样本数量分别乘以对应的样本权重,得到各关系类别的新样本数量;根据随机排列组合方法,将当前训练集中各关系类别的样本数量扩充至对应的新样本数量,得到最新训练集。
[0014]基于上述方法的进一步改进,根据训练集中各训练样本的训练结果动态更新各关系类别标签,采用如下公式:
[0015][0016]其中,lable
i
为在当前训练结果中当前训练样本第i个关系类别的动态标签值,i=1,2,...,K,K为关系类别总个数,ε为超参数,detect
i
为在当前训练结果中当前训练样本被预测出的关系类别,ps
pos
为被预测出的关系类别对应的概率。
[0017]基于上述方法的进一步改进,更新各关系类别的样本权重,包括:
[0018]根据当前训练集中各关系类别的样本数量,得到各关系类别的初始样本权重;
[0019]根据测试集中各测试样本的验证结果,统计测试集中各关系类别的样本中被预测错误的样本数量,计算各关系类别的样本权重调节因子;
[0020]各关系类别的初始样本权重分别乘以对应的样本权重调节因子,得到各关系类别更新后的样本权重。
[0021]基于上述方法的进一步改进,根据当前训练集中各关系类别的样本数量,得到各关系类别的初始样本权重,通过下式计算得到:
[0022][0023]其中,w
i
≥0(i=1,2,

,K)为当前训练集中第i个关系类别的初始样本权重,K为关系类别数,X
max
为当前训练集中样本数量最多的关系类别的样本数量,X
i
为第i个关系类别的样本数量。
[0024]基于上述方法的进一步改进,测试集中各关系类别的样本中被预测错误的样本数量包括:负样本被预测为正样本的样本数量、正样本被预测为负样本的样本数量和被漏判的样本数量。
[0025]基于上述方法的进一步改进,各关系类别的样本权重调节因子,通过下式计算得到:
[0026][0027]其中,s
i
≥0(i=1,2,

,K)为当前训练集中第i个关系类别的样本权重调节因子,K为关系类别数,Y
ri
为测试集中第i个关系类别的样本中被预测错误的样本数量,Y
i
为测试集中第i个关系类别的样本数量。
[0028]基于上述方法的进一步改进,PCNN模型包括输入映射层、卷积层、分段最大池化和全连接层。
[0029]另一方面,本专利技术实施例提供了一种质量问题分析报告的实体关系抽取系统,包括:
[0030]关系抽取模块,用于从质量问题分析报告中提取待推理信息,对待推理信息进行预处理后,传入实体关系抽取模型,推理出实体关系;
[0031]模型生成模块,用于获取实体关系抽取模型,实体关系抽取模型是基于历史质量问题分析报告构建训练集和测试集,对PCNN模型进行迭代训练和测试,直至模型准确率不小于阈值而得到;其中,训练时根据各关系类别的样本权重更新训练集,根据训练集中各训练样本的训练结果动态更新各关系类别标签;测试时根据测试集中各测试样本的验证结果计算模型准确率,若模型准确率小于阈值,更新各关系类别的样本权重后再次训练和测试。
[0032]与现有技术相比,本专利技术至少可实现如下有益效果之一:...

【技术保护点】

【技术特征摘要】
1.一种质量问题分析报告的实体关系抽取方法,其特征在于,包括如下步骤:从质量问题分析报告中提取待推理信息,对待推理信息进行预处理后,传入实体关系抽取模型,推理出实体关系;所述实体关系抽取模型是基于历史质量问题分析报告构建训练集和测试集,对PCNN模型进行迭代训练和测试,直至模型准确率不小于阈值而得到;其中,训练时根据各关系类别的样本权重更新训练集,根据训练集中各训练样本的训练结果动态更新各关系类别标签;测试时根据测试集中各测试样本的验证结果计算模型准确率,若模型准确率小于阈值,更新各关系类别的样本权重后再次训练和测试。2.根据权利要求1所述的质量问题分析报告的实体关系抽取方法,其特征在于,所述对待推理信息进行预处理,包括:按句对待推理信息进行分词处理,去除其中的停用词,得到每一语句的分词结果;根据每一语句的分词结果识别出其中的实体,去除实体数量小于2的语句及其分词结果,剩下的每一语句的分词结果作为一条待推理数据。3.根据权利要求1所述的质量问题分析报告的实体关系抽取方法,其特征在于,所述根据各关系类别的样本权重更新训练集,包括:初次训练时,各关系类别的样本权重为1,直接获取训练集,否则,各关系类别的样本权重为上一次训练和测试结束后更新的各关系类别的样本权重,将当前训练集中各关系类别的样本数量分别乘以对应的样本权重,得到各关系类别的新样本数量;根据随机排列组合方法,将当前训练集中各关系类别的样本数量扩充至对应的新样本数量,得到最新训练集。4.根据权利要求3所述的质量问题分析报告的实体关系抽取方法,其特征在于,所述根据训练集中各训练样本的训练结果动态更新各关系类别标签,采用如下公式:其中,lable
i
为在当前训练结果中当前训练样本第i个关系类别的动态标签值,i=1,2,...,K,K为关系类别总个数,ε为超参数,detect
i
为在当前训练结果中当前训练样本被预测出的关系类别,ps
pos
为被预测出的关系类别对应的概率。5.根据权利要求4所述的质量问题分析报告的实体关系抽取方法,其特征在于,所述更新各关系类别的样本权重,包括:根据当前训练集中各关系类别的样本数量,得到各关系类别的初始样本权重;根据测试集中各测试样本的验证结果,统计测试集中各关系类别的样本中被预测错误的...

【专利技术属性】
技术研发人员:白洋李帅衡张驰隋悦郝创博王宇浩张月皎宋明艳
申请(专利权)人:北京京航计算通讯研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1