一种面向材料科学领域文献的实体识别和关系抽取方法技术

技术编号：41535981 阅读：23 留言：0更新日期：2024-06-03 23:14

本发明专利技术公开了一种面向材料科学领域文献的实体识别和关系抽取方法，包括：1）获取材料科学相关的文献摘要作为语料库，构建实体识别数据集和关系抽取数据集；2）获取材料科学领域的预训练模型MatBERT，利用实体识别数据集对进行微调，并通过微调后的MatBERT将词转换为特征词向量；3）由转换后的特征词向量，获取增强语义向量表征，预测出给定材料科学领域文本的文本序列；4）利用关系抽取数据集对MatBERT进行微调，并通过微调后的MatBERT将文本序列转换为特征文本序列向量；5）由转换后的特征文本序列向量，获取增强语义文本序列向量表征，抽取出给定材料科学领域文本的关系三元组。本发明专利技术方法能够更有效地识别多种重叠关系三元组，以提高实体关系抽取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘，具体涉及一种面向材料科学领域文献的实体识别和关系抽取方法。

技术介绍

1、在当前迅猛发展的信息技术背景下，知识图谱已广泛应用于各个行业。与此同时，材料科学领域正面临着数据爆炸和信息碎片化的挑战。科研人员迫切需要处理和理解庞大的文献、专利和实验数据，以推动材料科学的前沿研究和技术创新。因此，构建和应用材料科学领域的知识图谱显得尤为重要。

2、在知识图谱构建的各个环节中，材料知识信息抽取无疑是至关重要的一步。然而，传统的信息提取方法面临着诸多复杂问题，如语境理解、多关系抽取和长距离依赖建模等。这些问题限制了科学家们对海量信息进行全面、高效利用的能力。因此，推动先进的信息抽取技术的研究和应用成为解决这一问题的当务之急。首先，语境理解一直是信息提取领域的一项难题。传统的基于规则和统计的方法难以捕捉文本中词汇的真实语义关系，尤其是在材料科学这一专业领域。术语的含义通常依赖于上下文，而传统方法难以处理这种复杂的语境关系。因此，在从文本中提取关键信息时，对语境的准确理解显得尤为重要。

3、其次，材料科学领域涉及众多复杂的关系，包括材料本身的各种结构，材料之间的相互作用、制备方法、性能特征等。传统的信息提取方法通常设计用于提取单一关系的抽取，而难以胜任多关系的复杂抽取任务。这使得研究人员在了解材料之间的多样关系时面临一定的困难，因为这些关系往往在文本中交织复杂，不容易被传统方法有效捕捉。

4、此外，材料科学文本摘要中常常存在长距离的依赖关系。例如，某个特定实验步骤可能与文本中较远的段落

5、另一方面，目前的许多材料科学实体关系抽取方法未充分考虑重叠关系的抽取问题，而在大量材料科学文本摘要中，这种重叠关系普遍存在。具体而言，重叠关系主要分为两种类型：epo(entity pair overlap，实体对重叠，即头尾实体相同但关系不同的三元组)和seo(single entity overlap，单实体重叠，即单个实体和关系相同的三元组)。

技术实现思路

1、本专利技术的目的在于针对现有技术的不足，提出一种面向材料科学领域文献的实体识别和关系抽取方法，该方法分为两个主要部分：命名实体识别和关系抽取；这两部分以pipeline(流水线)的形式相互组合，将实体识别关系抽取问题形式化为序列标注任务，旨在深化实体和关系之间的相互作用，该模型致力于更有效地识别多种重叠关系三元组，以提高实体关系抽取的准确性。

2、为实现上述目的，本专利技术采用如下技术方案：

3、一种面向材料科学领域文献的实体识别和关系抽取方法，包括以下步骤：

4、步骤s1、获取材料科学相关的文献摘要作为语料库，构建实体识别数据集和关系抽取数据集；

5、步骤s2、获取材料科学领域的预训练模型matbert，利用步骤s1中构建的实体识别数据集对matbert进行微调，并通过微调后的matbert进行词嵌入向量，将词转换为matbert特征词向量；

6、步骤s3、由转换后的matbert特征词向量，获取增强语义向量表征，从而预测出给定材料科学领域文本的文本序列；

7、步骤s4、利用步骤s1中构建的关系抽取数据集对matbert进行微调，并通过微调后的matbert进行词嵌入向量，将文本序列转换为matbert特征文本序列向量；

8、步骤s5、由转换后的matbert特征文本序列向量，获取增强语义文本序列向量表征，从而抽取出给定材料科学领域文本的关系三元组。

9、具体的，步骤s1中所述获取材料科学相关的文献摘要作为语料库，材料科学相关的文献摘要从web ofscience网站上获取。

10、具体的，步骤s1中所述构建实体识别数据集和关系抽取数据集，获取材料科学相关的文献摘要后，通过文献标注工具进行人工标注，得到预处理好的结构化数据集；所述文献标注工具包括实体标注工具和关系标注工具。

11、进一步地，所述实体标注工具为开源的命名实体语料标注工具yedda，经过人工标注后生成bio文件，其中每行以“word label”的形式呈现，表示每个词及其对应的标签；所述实体标注工具基于bio标注模式，根据预确定好的实体类型，对每段文本实体进行划词标注，并最终导出bio文件。

12、更进一步地，所述关系标注工具，在人工标注前，将命名实体识别标注结果的bio文件转换成json格式，每个json文件都包含一个对象，代表文本中的一句话，其中包括了句子及其相关的实体类型和位置编码；在人工标注完成后，这些数据会转换为关系抽取的格式，其中包括位置编码以及通过预定义的方案进行句内关系匹配得到的位置向量特征。

13、具体的，步骤s2中所述利用步骤s1中构建的实体识别数据集对matbert进行微调，所述微调指使用该模型提供的配置文件中matbert-base-uncased和matbert-base-cased，并针对不同环节使用不同结构的、少量的训练实例进行训练；所述不同环节包括命名实体识别和关系抽取；所述不同结构包括实体标签标注训练实例和标签关系标注训练实例。

14、具体的，步骤s3中所述获取增强语义向量表征的方法为：

15、将matbert的特征输出向量表示传入至bi-directional long short-termmemory，bilstm双向长短期记忆网络层进行编码，抽取每个词或者标签的上下文语义信息表征，学习文本的序列特征，最终得到文本的增强语义向量表征。

16、具体的，步骤s3中所述预测出给定材料科学领域文本的文本序列，根据所得文本的增强语义向量表征，采用conditional random field，crf条件随机场进行全局标签优化，预测文本序列。

17、具体的，步骤s5中所述获取增强语义文本序列向量表征的方法为：

18、将文本序列的向量表示传入至bilstm层进行编码，抽取每个标签的上下文语义表征，学习文本的序列特征，最终得到文本序列的特征向量表示。

19、具体的，步骤s5中所述抽取出给定材料科学领域文本的关系三元组，采用attention机制来对不同位置的权重进行动态调整，提高模型对输入信息的整体建模能力，捕捉实体间的关系，抽取关系三元组。

20、与现有技术相比，本专利技术具有以下有益效果：

21、1、首先，在工作模式上，本专利技术采用pipeline(流水线)模式，以提高整个模型的灵活性和可解释性；有文献sota表明，相对于联合抽取的模式，pipeline模式表现更为出色。其次，本专利技术引入了matbert作为wordembedding(词嵌入)工具，该模型以材料科学领域文献为基础，经过bert(bi-directional encoder repre本文档来自技高网...

【技术保护点】

1.一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤S1中所述获取材料科学相关的文献摘要作为语料库，材料科学相关的文献摘要从Web Of Science网站上获取。

3.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤S1中所述构建实体识别数据集和关系抽取数据集，获取材料科学相关的文献摘要后，通过文献标注工具进行人工标注，得到预处理好的结构化数据集；所述文献标注工具包括实体标注工具和关系标注工具。

4.根据权利要求3所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，所述实体标注工具为开源的命名实体语料标注工具YEDDA，经过人工标注后生成BIO文件，其中每行以“Word Label”的形式呈现，表示每个词及其对应的标签；所述实体标注工具基于BIO标注模式，根据预确定好的实体类型，对每段文本实体进行划词标注，并最终导出BIO文件。

5.根据权利要求3所述的一种面

6.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤S2中所述利用步骤S1中构建的实体识别数据集对MatBERT进行微调，所述微调指使用该模型提供的配置文件中matbert-base-uncased和matbert-base-cased，并针对不同环节使用不同结构的、少量的训练实例进行训练；所述不同环节包括命名实体识别和关系抽取；所述不同结构包括实体标签标注训练实例和标签关系标注训练实例。

7.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤S3中所述获取增强语义向量表征的方法为：

8.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤S3中所述预测出给定材料科学领域文本的文本序列，根据所得文本的增强语义向量表征，采用Conditional Random Field，CRF条件随机场进行全局标签优化，预测文本序列。

9.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤S5中所述获取增强语义文本序列向量表征的方法为：

10.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤S5中所述抽取出给定材料科学领域文本的关系三元组，采用Attention机制来对不同位置的权重进行动态调整，提高模型对输入信息的整体建模能力，捕捉实体间的关系，抽取关系三元组。

...

【技术特征摘要】

1.一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤s1中所述获取材料科学相关的文献摘要作为语料库，材料科学相关的文献摘要从web of science网站上获取。

3.根据权利要求1所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，步骤s1中所述构建实体识别数据集和关系抽取数据集，获取材料科学相关的文献摘要后，通过文献标注工具进行人工标注，得到预处理好的结构化数据集；所述文献标注工具包括实体标注工具和关系标注工具。

4.根据权利要求3所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，所述实体标注工具为开源的命名实体语料标注工具yedda，经过人工标注后生成bio文件，其中每行以“word label”的形式呈现，表示每个词及其对应的标签；所述实体标注工具基于bio标注模式，根据预确定好的实体类型，对每段文本实体进行划词标注，并最终导出bio文件。

5.根据权利要求3所述的一种面向材料科学领域文献的实体识别和关系抽取方法，其特征在于，所述关系标注工具，在人工标注前，将命名实体识别标注结果的bio文件转换成json格式，每个json文件都包含一个对象，代表文本中的一句话，其中包括了句子及其相关的实体类型和位置编码；在人工标注完成后，这些数据会转换为关系抽取的格式，其中包括位置编码以及通过预定义的方案进行句内关系匹...

【专利技术属性】
技术研发人员：肖建茂，肖宇，雷刚，陈浩辉，邱欣基，曹远龙，吴木生，
申请(专利权)人：江西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人