一种水产动物和疾病文本关系抽取方法技术

技术编号:34880348 阅读:16 留言:0更新日期:2022-09-10 13:37
本发明专利技术公开了一种水产动物疾病文本的实体语义关系抽取方法,包括:收集水产动物疾病文本,使用标注工具对文本数据标注,将标注完的数据集输入BERT模型,自动获取词语语义上的特征、并表示和抽取深层次语义,得到第二文本,将标签信息嵌入第二文本的词和标签的联合空间、并与每个字进行联合学习,输出第三文本,将第三文本输入Bilstm模型进行学习,获取长距离词的相关性和上下文信息,得到第四文本,将第四文本送入到Attention层,减少文本序列中关键信息的丢失,获得第五文本,将第五文本输入CRF层,得到水产动物疾病文本实体关系联合抽取的结果。该方法可有效地解决篇章级关系抽取中重叠关系抽取不准确的问题。中重叠关系抽取不准确的问题。中重叠关系抽取不准确的问题。

【技术实现步骤摘要】
一种水产动物和疾病文本关系抽取方法


[0001]本专利技术涉及水产疾病防治
,更具体的涉及一种水产动物疾病文本 的实体语义关系抽取方法。

技术介绍

[0002]在水产养殖过程中,水产动物的疾病是影响养殖户经济的一大因素,通过 将水生动物疾病领域知识与计算机相结合,构建水生动物疾病知识图谱,使养 殖户在水产病害发生时能够得到及时准确诊断,正确得当处治意见。关系抽取 是知识图谱构建的重要前期工作之一,将无结构的文本转化成格式统一的关系 数据,将文本数据中的特征进行提取,具有重要的意义。
[0003]Zheng等首次提出基于新标注策略的实体关系联合抽取方法。该方法把包 含命名实体识别与关系分类两个任务的联合学习模型转变成序列标注问题,取 得很好的效果(ZHENG S,HAO Y,LU D,et al.Joint entity and relation extractionbased on a hybrid neural network[J].Neurocomputing,2016,257.)。张玉坤等在药 品说明书语料库中,把卷积神经网络与支持向量机、条件随机场相结合,构建 了联合神经网络模型,取得了不错的效果(张玉坤,刘茂福,胡慧君.基于联合 神经网络模型的中文医疗实体分类与关系抽取[J].计算机工程与科学, 2019,41(06):1110

1118.)。在水稻病虫草害领域,沈利言等设计了一种基于新 标注模式的双长短期记忆网络与注意力机制结合的水稻病虫草害与药剂的实 体关系联合抽取算法,解决了文本中含有大量实体没有明确边界以及药剂与病 虫草害实体之间存在大量多关系的技术问题并得到了不错的效果(沈利言,姜 海燕,胡滨,等.水稻病虫草害与药剂实体关系联合抽取算法[J].南京农业大 学学报,2020,43(06):1151

1161.)。在金融领域,唐晓波等结合金融文本特征 提出了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模 型,实现了对金融文本中实体间重叠关系的识别,F值达到了54.3%(唐晓波, 刘志源.金融领域文本序列标注与实体关系联合抽取研究[J].情报科学, 2021,39(05):3

11.)。在医疗领域,曹明宇等提出了一种基于神经网络的药物 实体与关系联合抽取方法,使用了一种新标注模式,将药物实体及关系的联合 抽取转化为端对端的序列标注任务,F值达到了67.3%(曹明宇,杨志豪,罗凌, 等.基于神经网络的药物实体与关系联合抽取[J].计算机研究与发展, 2019,56(07):1432

1440.)。然而,上述这些方法限制了捕获长跨度句子中实体 语义信息,它们不能从篇章级的关系示例中提取一些新的有效特征。

技术实现思路

[0004]本专利技术实施例提供一种水产动物疾病文本的实体语义关系抽取方法,包 括:
[0005]收集水产动物疾病文本,构建水产动物疾病语料库;
[0006]采用标注工具对文本数据集使用标注工具对文本数据标注;
[0007]将标注完的数据集输入BERT模型,自动获取词语语义上的特征、并表示 和抽取深
层次语义,得到第二文本;
[0008]对第二文本进行标签嵌入,将标签信息嵌入第二文本的词和标签的联合空 间、并与每个字进行联合学习,输出第三文本;
[0009]将联合学习的第三文本输入Bilstm模型进行学习,对学习到的标签嵌入层 的输出信息进一步语义编码,获取长距离词的相关性和上下文信息,得到第四 文本;
[0010]将第四文本送入到Attention层,在大量信息中集中注意力地处理有用信 息,减少文本序列中关键信息的丢失,获得第五文本;
[0011]将第五文本输入CRF层,得到最终的预测标签序列,进而得到水产动物 疾病文本实体关系联合抽取的结果。
[0012]进一步,还包括对收集到的水产动物疾病文本进行数据预处理,其包括:
[0013]通过用Python语句对网络上水产疾病网站进行数据爬取;
[0014]整合文献、书籍上的数据;
[0015]清洗无用数据。
[0016]进一步,还包括将语料库中的语料分成两部分,一部分为训练集一部分为 测试集,采用标注工具对训练集中的文本数据进行标注。
[0017]进一步,采用标注工具对训练集中的文本数据进行标注的标注方法,包括:
[0018]疾病的标签设为固定标签,B

H

1表示实体头部,I

H

1表示实体中间部分;
[0019]实体标签均采用HB表示该实体元素的头部,HI表示该实体元素的中间部 分,O则表示该元素不属于任何实体。
[0020]进一步,得到最终的预测标签序列的步骤,包括:
[0021]设定输入序列X=(X1,X2,...,X
n
);
[0022]获得Attention层输出概率矩阵P;
[0023]CRF层输出的标注序列Y=(Y1,Y2,...,Y
n
);
[0024]根据下面公式计算预测序列得分S(X,Y),得分最高的序列为最终的输 出序列;
[0025][0026]其中,A
yi,yi+1
表示概率中转移矩阵由标注Y
i
转移到标注Y
i+1
的概率,P
i,yi
表示被X
i
标注为Y
i
的概率。
[0027]本专利技术实施例提供一种水产动物疾病文本的实体语义关系抽取方法,与现 有技术相比,其有益效果如下:
[0028]本专利技术是为了解决篇章级水产领域文本关系抽取中抽取结果不准确的问 题,而提出的一种水产动物疾病文本的实体语义关系抽取方法,可有效地解决 篇章级关系抽取中重叠关系抽取不准确的问题。与现有的关系抽取方法相比, 本专利技术在水产疾病文本数据集上获得了最佳性能,在准确率和召回值上都有所 提升,在此基础上,有效提高了水产疾病文本关系抽取的F1值。
附图说明
[0029]图1为本专利技术实施例提供的一种水产动物疾病文本的实体语义关系抽取方 法的流程示意图;
[0030]图2为本专利技术实施例提供的一种水产动物疾病文本的实体语义关系抽取方 法的
标注结果图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是 全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]参见图1~2,本专利技术实施例提供一种水产动物疾病文本的实体语义关系抽 取方法,该方法包括:
[0033]本专利技术的一种水产动物疾病文本的实体语义关系抽取方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种水产动物疾病文本的实体语义关系抽取方法,其特征在于,包括:收集水产动物疾病文本;使用标注工具对文本数据标注;将标注完的数据集输入BERT模型,自动获取词语义上的特征、并表示和抽取深层次语义,得到第二文本;对第二文本进行标签嵌入,将标签信息嵌入第二文本的词和标签的联合空间、并与每个字进行联合学习,输出第三文本;将联合学习的第三文本输入Bilstm模型进行学习,对学习到的标签嵌入层的输出信息进一步语义编码,获取长距离词的相关性和上下文信息,得到第四文本;将第四文本送入到Attention层,在大量信息中集中注意力地处理有用信息,减少文本序列中关键信息的丢失,获得第五文本;将第五文本输入CRF层,得到最终的预测标签序列,进而得到水产动物疾病文本实体语义关系联合抽取的结果。2.如权利要求1所述的一种水产动物疾病文本的实体语义关系抽取方法,其特征在于,还包括对收集到的水产动物疾病文本进行数据预处理,其包括:通过用Python语句对网络上水产疾病网站进行数据爬取;整合文献、书籍上的数据;清洗无用数据。3.如权利要求1所述的一种水产动物疾病文本的实体语义关系抽取方法,其特征在于,还包括将语料库中的语料分成两部分,一部分为训练集一部分为测试集,采用标注工具对训练集中的文本数据进行标注。4.如权...

【专利技术属性】
技术研发人员:张思佳姜鑫喻文甫毕甜甜沙明洋王梓铭刘明剑
申请(专利权)人:大连海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1