一种质量问题分析报告的实体关系抽取方法及系统技术方案

技术编号：37523437 阅读：11 留言：0更新日期：2023-05-12 15:46

本发明专利技术涉及一种质量问题分析报告的实体关系抽取方法及系统，属于关系抽取技术领域，解决了现有技术中样本不均衡时关系抽取准确率低的问题。包括从质量问题分析报告中提取待推理信息，对待推理信息进行预处理后，传入实体关系抽取模型，推理出实体关系；实体关系抽取模型是基于历史质量问题分析报告构建训练集和测试集，对PCNN模型进行迭代训练和测试，直至模型准确率不小于阈值而得到；其中，训练时根据各关系类别的样本权重更新训练集，根据各训练样本的训练结果动态更新各关系类别标签；测试时根据各测试样本的验证结果计算模型准确率，若模型准确率小于阈值，更新各关系类别的样本权重后再次训练和测试。实现了实体间关系抽取的高准确率。关系抽取的高准确率。关系抽取的高准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种质量问题分析报告的实体关系抽取方法及系统

[0001]本专利技术涉及关系抽取
，尤其涉及一种质量问题分析报告的实体关系抽取方法及系统。

技术介绍

[0002]关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节，能够从非结构化文本中抽取实体对间的语义关系，实现语义理解与解析，相应的研究成果广泛应用于文本摘要、智能问答和知识图谱等

[0003]传统的关系抽取方法主要为基于特征向量与核函数的方法。其中基于特征向量的关系抽取方法的核心是利用词、词性序列、上下文、依存句法、句法树等构建特征工程提取数据的显式直观特征，通过启发式的方法选取特征集合，使用多层次的语言特征构造向量，关系抽取的速度较快。由于很难找出适合关系抽取任务的新特征，该类方法性能难以提升，因此方法的应用有局限性。基于核函数的关系抽取方法不需要人为构造显性的特征空间，直接文本的字符串或者句法分析的树结构作为输入，是利用卷积核、树核等核函数计算方式，自动提取数据的隐式高维特征，通过计算输入实例之间的相似度训练分类模型。基于核函数的方法可以利用文本的长距离特征，从而在理论上具有高维特征空间，关系抽取的结果优于基于特征向量的方法。但是由于核函数方法利用隐性方式表示特征，从而可能引入噪声信息，不利于判断特征有效性。
[0004]随着近年来深度学习的崛起，深度学习也逐渐应用于实体关系抽取任务中。深度学习的关系抽取任务能避免方法中人工特征选择等步骤，减少并改善特征抽取过程中的误差积累问题。对比传统方法，深度学习的关系抽取

【技术保护点】

【技术特征摘要】
1.一种质量问题分析报告的实体关系抽取方法，其特征在于，包括如下步骤：从质量问题分析报告中提取待推理信息，对待推理信息进行预处理后，传入实体关系抽取模型，推理出实体关系；所述实体关系抽取模型是基于历史质量问题分析报告构建训练集和测试集，对PCNN模型进行迭代训练和测试，直至模型准确率不小于阈值而得到；其中，训练时根据各关系类别的样本权重更新训练集，根据训练集中各训练样本的训练结果动态更新各关系类别标签；测试时根据测试集中各测试样本的验证结果计算模型准确率，若模型准确率小于阈值，更新各关系类别的样本权重后再次训练和测试。2.根据权利要求1所述的质量问题分析报告的实体关系抽取方法，其特征在于，所述对待推理信息进行预处理，包括：按句对待推理信息进行分词处理，去除其中的停用词，得到每一语句的分词结果；根据每一语句的分词结果识别出其中的实体，去除实体数量小于2的语句及其分词结果，剩下的每一语句的分词结果作为一条待推理数据。3.根据权利要求1所述的质量问题分析报告的实体关系抽取方法，其特征在于，所述根据各关系类别的样本权重更新训练集，包括：初次训练时，各关系类别的样本权重为1，直接获取训练集，否则，各关系类别的样本权重为上一次训练和测试结束后更新的各关系类别的样本权重，将当前训练集中各关系类别的样本数量分别乘以对应的样本权重，得到各关系类别的新样本数量；根据随机排列组合方法，将当前训练集中各关系类别的样本数量扩充至对应的新样本数量，得到最新训练集。4.根据权利要求3所述的质量问题分析报告的实体关系抽取方法，其特征在于，所述根据训练集中各训练样本的训练结果动态更新各关系类别标签，采用如下公式：其中，lable
i
为在当前训练结果中当前训练样本第i个关系类别的动态标签值，i＝1,2,...,K，K为关系类别总个数，ε为超参数，detect
i
为在当前训练结果中当前训练样本被预测出的关系类别，ps
pos
为被预测出的关系类别对应的概率。5.根据权利要求4所述的质量问题分析报告的实体关系抽取方法，其特征在于，所述更新各关系类别的样本权重，包括：根据当前训练集中各关系类别的样本数量，得到各关系类别的初始样本权重；根据测试集中各测试样本的验证结果，统计测试集中各关系类别的样本中被预测错误的...

【专利技术属性】
技术研发人员：白洋，李帅衡，张驰，隋悦，郝创博，王宇浩，张月皎，宋明艳，
申请(专利权)人：北京京航计算通讯研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人