基于BERT和改进PCNN的食品安全关系抽取方法技术

技术编号:31501909 阅读:22 留言:0更新日期:2021-12-22 23:20
本发明专利技术提供了基于BERT和改进PCNN的食品安全关系抽取方法,针对收集到的食品安全领域数据集,利用BERT和PCNN模型的分段最大池化最大程度捕获句子的局部信息,并根据中文是以词而并非以字为基本单位的特性以及注意力机制的优点,结合多核处理、分词技术、注意力机制以及损失函数等方法提出改进的模型BERT

【技术实现步骤摘要】
基于BERT和改进PCNN的食品安全关系抽取方法


[0001]本专利技术属于知识图谱
,具体涉及基于BERT和改进PCNN的食品 安全关系抽取方法。

技术介绍

[0002]食品安全关乎于每个人的健康,但目前食品安全大多呈现难追溯,难控制, 难防范的问题。食品安全领域的数据以食品为中心,包括食品在各个生产过程中 的数据,亟需建立完整知识库,从而能够高效发现食品安全问题源头。
[0003]计算机应用与食品领域的交叉研究,促进了食品行业的发展与进步,知识图 谱的出现成为连接两者的桥梁。知识图谱技术主要包括知识抽取,知识融合,知 识加工,图谱应用等方面。知识抽取作为连接大规模数据集和知识图谱应用,自 动化高准确的抽取手段则显得尤为重要。关系抽取是知识图谱构建、问答系统以 及其他知识图谱应用的重要环节之一。
[0004]如何从海量无规则的数据中挑选对用户有用的知识和信息成为了人们迫切 想要解决的问题。目前学界重点关注于如何从海量无规则的数据中得到所需三元 组的信息抽取技术问题。信息抽取主要包括3个项子任务:实体抽取、关系抽取 和事件抽取。而关系抽取作为信息抽取与检索等领域的核心任务和重要环节,能 够从文本中抽取实体之间或者实体属性的语义关系,例如得到“实体关系实体
”ꢀ
或者“实体属性属性值”三元组。在食品安全领域中,关系抽取可以应用于扩 展食品知识图谱内容,并为下一步知识推理做铺垫。
[0005]由于机器学习以及知识图谱技术的发展,目前关系抽取技术主要分为三种: 第一种是基于手写规则的关系抽取方法,1999年Aitken对于全球变暖文章中定 量定性谓词进行提取,在371条句子的训练中准确率达到了66%。该方法的缺点 是三元组的查准率较高,只能适用特定数据集,查全率比较低,不能准确地查找 所有满足要求的三元组。第二种是基于传统机器学习的关系抽取方法,主要包括 基于特征向量的方法,基于核函数的方法以及条件随机场(CRF)的方法。王东 波等人结合情报学数据获取、标注和组织的方法并运用CRF机器学习模型构建, 在标注了1万5千字的语料库基础上进行实体抽取预测,F值达到了91.94%, 该方法的缺点是容易造成欠拟合现象且参数调整过程较为复杂。第三种是基于深 度学习的关系抽取方法,Zeng等人在特征向量和核函数基础上提出CNN神经网 络模型,减少了错误传播。王庆棒基于CNN和BILSTM模型对于食品輿情实体 关系抽取的研究,准确率提升至80%,为食品领域的关系抽取奠定方向。ZENG D等人将基于分段卷积神经网络(PCNN)模型应用于关系抽取中,并取得不错 的效果。武小平等人利用BERT模型与CNN模型结合使得F1值提升至83%。

技术实现思路

[0006]本专利技术要解决的技术问题是:提供基于BERT和改进PCNN的食品安全关 系抽取方法,用于提高抽取食品安全领域关系的性能。
[0007]本专利技术为解决上述技术问题所采取的技术方案为:基于BERT和改进PCNN 的食品安全关系抽取方法,包括以下步骤:
[0008]S1:构建食品安全领域数据集并导入图数据库中;
[0009]S2:构建食品安全领域关系模型,具体步骤为:
[0010]S21:采用手工标注的方法对大规模文本进行预处理;
[0011]S22:采用BERT模型从语料库得到句子的词嵌入向量和位置嵌入向量,将 词嵌入向量与位置嵌入向量拼接得到句子的向量;
[0012]S23:将句子的向量作为输入训练生成PCNN分段卷积神经网络模型;PCNN 分段卷积神经网络模型包括依次连接的输入层、卷积层、分段最大池化层、分类 层;输入层用于接收BERT模型输出的向量;卷积层用于拼接句子的上下文中词 语的语义特征得到句子的特征,通过高层特征限制输入层与隐藏层之间连接元的 数目从而减少模型训练的参数;分段最大池化层用于根据实体与实体之间的位置 关系捕捉更高层语义特征;分类层用于将分段最大池化层得到的向量通过线性计 算将维度降低至n维,并通过softmax分类器预测条件概率并选出最有可能的关 系;
[0013]S3:结合PCNN分段卷积神经网络模型的特点与中文特殊语料的特性,加 入注意力机制与分词处理改进PCNN分段卷积神经网络模型得到 BERT

PCNN

ATT

jieba模型;
[0014]S4:通过测试集测试模型并进行关系分类;
[0015]S5:通过比较评估指标评价模型的性能。
[0016]按上述方案,所述的步骤S1中,具体步骤为:
[0017]S11:通过收集食品安全领域的文本获取食品安全数据形成语料库;
[0018]S12:对食品安全数据的实体类别和关系类别进行专业标注和分类;
[0019]S13:根据语料库和实体类别构建食品安全关系抽取数据集,并将整理好的 数据集按照8

2原则划分为训练集和测试集;
[0020]S14:对食品安全数据采取图方式建模,并将实体和关系存储在neo4j数据 库中;实体为知识图谱中的节点,关系为知识图谱的边,关系的方向从头实体指 向尾实体,不同实体的互联形成食品安全知识图谱网。
[0021]进一步的,所述的步骤S11中,语料库包括源数据格式、附录表格、正文文 本;源数据格式用于处理数据格式;附录表格包括实体、属性、属性值;正文文 本包括句子、关系、第一实体、第一实体位置、第二实体、第二实体位置。
[0022]进一步的,所述的步骤S12中,食品安全数据的实体分类包括实体类别、实 体属性、实体举例;关系类别包括头实体分类、尾实体分类、关系名称、关系描 述、关系数目。
[0023]按上述方案,所述的步骤S22中,
[0024]词嵌入向量是固定长度的向量,用于将由m个单词组成的句子 sentence={word1,word2,word3,

,wordm}的第m个单词wordm映射到词嵌 入向量E
wordm
表示语义关系,且句子开头的词嵌入向量为特殊符号E
[CLS],句子 结束的词嵌入向量为特殊符号E
[SEP];
[0025]位置嵌入向量用于以句子的头实体和尾实体为基准,将句子中的每个词距离 头实体的相对位置存储在距离头实体位置向量head_pos中,将句子中的每个词 距离尾实体的相对位置存储在距离尾实体位置向量tail_pos中。
[0026]按上述方案,所述的步骤S22中,获取位置嵌入向量的具体步骤为:
[0027]S221:从文本数据中获取包括头实体和尾实体的文本分词;采用头实体和尾 实体替换类别名称;
[0028]S222:将第m个文本分词初始化为第m个单词,判断是否到句末,若是则 结束获取位置嵌入向量,若否则求出第m个单词距离头实体的相对位置并存储 在距离头实体位置向量head_pos中;
[0029]S223:求出第m个单词距离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于BERT和改进PCNN的食品安全关系抽取方法,其特征在于:包括以下步骤:S1:构建食品安全领域数据集并导入图数据库中;S2:构建食品安全领域关系模型,具体步骤为:S21:采用手工标注的方法对大规模文本进行预处理;S22:采用BERT模型从语料库得到句子的词嵌入向量和位置嵌入向量,将词嵌入向量与位置嵌入向量拼接得到句子的向量;S23:将句子的向量作为输入训练生成PCNN分段卷积神经网络模型;PCNN分段卷积神经网络模型包括依次连接的输入层、卷积层、分段最大池化层、分类层;输入层用于接收BERT模型输出的向量;卷积层用于拼接句子的上下文中词语的语义特征得到句子的特征,通过高层特征限制输入层与隐藏层之间连接元的数目从而减少模型训练的参数;分段最大池化层用于根据实体与实体之间的位置关系捕捉更高层语义特征;分类层用于将分段最大池化层得到的向量通过线性计算将维度降低至n维,并通过softmax分类器预测条件概率并选出最有可能的关系;S3:结合PCNN分段卷积神经网络模型的特点与中文特殊语料的特性,加入注意力机制与分词处理改进PCNN分段卷积神经网络模型得到BERT

PCNN

ATT

jieba模型;S4:通过测试集测试模型并进行关系分类;S5:通过比较评估指标评价模型的性能。2.根据权利要求1所述的基于BERT和改进PCNN的食品安全关系抽取方法,其特征在于:所述的步骤S1中,具体步骤为:S11:通过收集食品安全领域的文本获取食品安全数据形成语料库;S12:对食品安全数据的实体类别和关系类别进行专业标注和分类;S13:根据语料库和实体类别构建食品安全关系抽取数据集,并将整理好的数据集按照8

2原则划分为训练集和测试集;S14:对食品安全数据采取图方式建模,并将实体和关系存储在neo4j数据库中;实体为知识图谱中的节点,关系为知识图谱的边,关系的方向从头实体指向尾实体,不同实体的互联形成食品安全知识图谱网。3.根据权利要求2所述的基于BERT和改进PCNN的食品安全关系抽取方法,其特征在于:所述的步骤S11中,语料库包括源数据格式、附录表格、正文文本;源数据格式用于处理数据格式;附录表格包括实体、属性、属性值;正文文本包括句子、关系、第一实体、第一实体位置、第二实体、第二实体位置。4.根据权利要求2所述的基于BERT和改进PCNN的食品安全关系抽取方法,其特征在于:所述的步骤S12中,食品安全数据的实体分类包括实体类别、实体属性、实体举例;关系类别包括头实体分类、尾实体分类、关系名称、关系描述、关系数目。5.根据权利要求1所述的基于BERT和改进PCNN的食品安全关系抽取方法,其特征在于:所述的步骤S22中,词嵌入向量是固定长度的向量,用于将由m个单词组成的句子sentence={word1,word2,word3,

,wordm}的第m个单词wordm映射到词嵌入向量E
wordm
表示语义关系,且句子开头的词嵌入向量为特殊符号E
[CLS]
,句子结束的词嵌入向量为特殊符号E
[SEP]
;位置嵌入向量用于以句子的头实体和尾实体为基准,将句子中的每个词距离头实体的
相对位置存储在距离头实体位置向量head_pos中,将句子中的每个词距离尾实体的相对位置存储在距离尾实体位置向量tail_pos中。6.根据权利要求1所述的基于BERT和改进PCNN的食品安全关系抽取方法,其特征在于:所述的步骤S22中,获取位置嵌入向量的具体步骤为:S221:从文本数据中获取包括头实体和尾实体的文本分词;采用头实体和尾实体替换类别名称;S222:将第m个文本分词...

【专利技术属性】
技术研发人员:赵良张赵玥廖子逸李子龙罗皓文
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1