基于BERT和改进PCNN的食品安全关系抽取方法技术

技术编号：31501909 阅读：22 留言：0更新日期：2021-12-22 23:20

本发明专利技术提供了基于BERT和改进PCNN的食品安全关系抽取方法，针对收集到的食品安全领域数据集，利用BERT和PCNN模型的分段最大池化最大程度捕获句子的局部信息，并根据中文是以词而并非以字为基本单位的特性以及注意力机制的优点，结合多核处理、分词技术、注意力机制以及损失函数等方法提出改进的模型BERT

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT和改进PCNN的食品安全关系抽取方法

[0001]本专利技术属于知识图谱
，具体涉及基于BERT和改进PCNN的食品安全关系抽取方法。

技术介绍

[0002]食品安全关乎于每个人的健康，但目前食品安全大多呈现难追溯，难控制，难防范的问题。食品安全领域的数据以食品为中心，包括食品在各个生产过程中的数据，亟需建立完整知识库，从而能够高效发现食品安全问题源头。
[0003]计算机应用与食品领域的交叉研究，促进了食品行业的发展与进步，知识图谱的出现成为连接两者的桥梁。知识图谱技术主要包括知识抽取，知识融合，知识加工，图谱应用等方面。知识抽取作为连接大规模数据集和知识图谱应用，自动化高准确的抽取手段则显得尤为重要。关系抽取是知识图谱构建、问答系统以及其他知识图谱应用的重要环节之一。
[0004]如何从海量无规则的数据中挑选对用户有用的知识和信息成为了人们迫切想要解决的问题。目前学界重点关注于如何从海量无规则的数据中得到所需三元组的信息抽取技术问题。信息抽取主要包括3个项子任务：实体抽取、关系抽取和事件抽取。而关系抽取作为信息抽取与检索等领域的核心任务和重要环节，能够从文本中抽取实体之间或者实体属性的语义关系，例如得到“实体关系实体
”ꢀ
或者“实体属性属性值”三元组。在食品安全领域中，关系抽取可以应用于扩展食品知识图谱内容，并为下一步知识推理做铺垫。
[0005]由于机器学习以及知识图谱技术的发展，目前关系抽取技术主要分为三种：第一种是基于手写...

【技术保护点】

【技术特征摘要】
1.基于BERT和改进PCNN的食品安全关系抽取方法，其特征在于：包括以下步骤：S1：构建食品安全领域数据集并导入图数据库中；S2：构建食品安全领域关系模型，具体步骤为：S21：采用手工标注的方法对大规模文本进行预处理；S22：采用BERT模型从语料库得到句子的词嵌入向量和位置嵌入向量，将词嵌入向量与位置嵌入向量拼接得到句子的向量；S23：将句子的向量作为输入训练生成PCNN分段卷积神经网络模型；PCNN分段卷积神经网络模型包括依次连接的输入层、卷积层、分段最大池化层、分类层；输入层用于接收BERT模型输出的向量；卷积层用于拼接句子的上下文中词语的语义特征得到句子的特征，通过高层特征限制输入层与隐藏层之间连接元的数目从而减少模型训练的参数；分段最大池化层用于根据实体与实体之间的位置关系捕捉更高层语义特征；分类层用于将分段最大池化层得到的向量通过线性计算将维度降低至n维，并通过softmax分类器预测条件概率并选出最有可能的关系；S3：结合PCNN分段卷积神经网络模型的特点与中文特殊语料的特性，加入注意力机制与分词处理改进PCNN分段卷积神经网络模型得到BERT
‑
PCNN
‑
ATT
‑
jieba模型；S4：通过测试集测试模型并进行关系分类；S5：通过比较评估指标评价模型的性能。2.根据权利要求1所述的基于BERT和改进PCNN的食品安全关系抽取方法，其特征在于：所述的步骤S1中，具体步骤为：S11：通过收集食品安全领域的文本获取食品安全数据形成语料库；S12：对食品安全数据的实体类别和关系类别进行专业标注和分类；S13：根据语料库和实体类别构建食品安全关系抽取数据集，并将整理好的数据集按照8
‑
2原则划分为训练集和测试集；S14：对食品安全数据采取图方式建模，并将实体和关系存储在neo4j数据库中；实体为知识图谱中的节点，关系为知识图谱的边，关系的方向从头实体指向尾实体，不同实体的互联形成食品安全知识图谱网。3.根据权利要求2所述的基于BERT和改进PCNN的食品安全关系抽取方法，其特征在于：所述的步骤S11中，语料库包括源数据格式、附录表格、正文文本；源数据格式用于处理数据格式；附录表格包括实体、属性、属性值；正文文本包括句子、关系、第一实体、第一实体位置、第二实体、第二实体位置。4.根据权利要求2所述的基于BERT和改进PCNN的食品安全关系抽取方法，其特征在于：所述的步骤S12中，食品安全数据的实体分类包括实体类别、实体属性、实体举例；关系类别包括头实体分类、尾实体分类、关系名称、关系描述、关系数目。5.根据权利要求1所述的基于BERT和改进PCNN的食品安全关系抽取方法，其特征在于：所述的步骤S22中，词嵌入向量是固定长度的向量，用于将由m个单词组成的句子sentence＝{word1，word2，word3，
…
，wordm}的第m个单词wordm映射到词嵌入向量E
wordm
表示语义关系，且句子开头的词嵌入向量为特殊符号E
[CLS]
，句子结束的词嵌入向量为特殊符号E
[SEP]
；位置嵌入向量用于以句子的头实体和尾实体为基准，将句子中的每个词距离头实体的
相对位置存储在距离头实体位置向量head_pos中，将句子中的每个词距离尾实体的相对位置存储在距离尾实体位置向量tail_pos中。6.根据权利要求1所述的基于BERT和改进PCNN的食品安全关系抽取方法，其特征在于：所述的步骤S22中，获取位置嵌入向量的具体步骤为：S221：从文本数据中获取包括头实体和尾实体的文本分词；采用头实体和尾实体替换类别名称；S222：将第m个文本分词...

【专利技术属性】
技术研发人员：赵良，张赵玥，廖子逸，李子龙，罗皓文，
申请(专利权)人：华中农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人