当前位置: 首页 > 专利查询>中国船舶集团有限公司综合技术经济研究院专利>正文

一种基于预训练模型、Prompt和交叉验证的船舶关系抽取方法技术

技术编号：41189857 阅读：10 留言：0更新日期：2024-05-07 22:20

本发明专利技术实施例提供一种基于BERT‑BiLSTM‑CRF的船舶命名实体识别方法，基于开源的BERT预训练模型，融入至少包括字形、字音的特征，获得词嵌入表示，并取其最后一层的隐状态向量作为BERT层的最终词向量输出；将最终词向量输入到BiLSTM模型，进行特征量提取，捕捉句子两个方向的符合自然语言的理解规律信息；将所述特征量输入到CRF层，基于标签之间的顺序和逻辑关系获取全局最优的标签序列，进行标签校正；根据标注的序列进行解码，获得命名实体。本发明专利技术技术方案，使用CRF考虑标签之间的顺序和逻辑关系获得全局最优的标签序列，解决船舶行业标准文本有着更加特殊的文本内容、语言规范，包含大量专业命名实体的同时，并不严谨地遵循语法组织语言问题，进行标签校正。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息处理，特别涉及一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法。

技术介绍

1、知识图谱的质量往往关系到下游任务的效果，构建高质量的知识图谱离不开命名实体识别(named entity recognition,ner)和关系抽取(relation extraction,re)这两项自然语言处理中的基础性工作，它们的核心都是从自然语言文本中，抽取出特定的事实信息，从而帮助将海量内容自动分类、提取和重构。

2、命名实体识别任务是根据预定义的实体类型(如人名、地名、机构名等)，在海量的非结构文本中提取出有意义的实体。关系抽取任务则是根据子任务ner抽取出的实体，识别出各实体间的语义关系或语法关系，并以实体-关系-实体三元组的形式表示出来。

3、目前的前沿技术大多数集中在英文领域。对比英文，中文语言则普遍存在一词多义、边界模糊、关系嵌套等问题。而船舶行业标准文档则更加复杂，专业性较强，对于深度学习模型来说具有较大的理解难度。

4、传统的命名实体识别和关系抽取任务大多集中在特定领域上。目前在特定领域(如人名、地名、机构名等)实体识别性能f1值都能达到90％以上，对于关系抽取任务亦是如此。然而由于船舶行业标准领域的特殊性，实体和关系的类别复杂，且缺乏足够的训练样本，无疑加大信息抽取的难度。

5、因此，如何提供一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法，在经典模型的基础上结合数据的特点，设计基于prompt的中文信息抽取方法，已经成为一个亟待解决的技术问题。

技术实现思路

1、本专利技术实施例提供一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法，在经典模型的基础上结合数据的特点，设计基于prompt的中文信息抽取方法。

2、本专利技术实施例中，提供一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法，包括；

3、s101、在具有一级标题和二级标题的结构化文本中，基于预训练大模型，采取关系分类的方法，在半结构化文本中，抽取出实体间关系；

4、s102、对于具有复杂关系或不具有明确关系的文本，基于prompt模板+分交叉验证的方式进行关系的二分类判断及修正。

5、进一步地，在具有一级标题和二级标题的结构化文本中，基于预训练大模型，采取关系分类的方法，在半结构化文本中，抽取出实体间关系，包括：

6、处理文本序列，在序列的头实体前后插入“$”标志，在尾实体前后插入“#”标志，得到预处理的文本嵌入表示；

7、根据两个头实体标志“$”和两个尾实体标志“#”在向量中的位置，取出4个标志在h中的向量表示hm，hn，hp，hq，然后将4个标志向量拼接得到h1，在经过dropout后接入线性层和softmax层进行分类；

8、得到维度为关系类别数量的分类向量，并使用argmax函数得到最大元素的下标，作为最终的关系类别p。计算公式如下：

9、h1＝wt*[concat(hm，hn，hp，hq)]+bt

10、p＝argmax(softmax(h1))。

11、进一步地，在文本嵌入输入到bert模型后，得到最后一层transformer-encoder的隐状态向量h0＝{h1，...，hr}；

12、在预处理阶段，“[cls]”会作为序列中的第一个标记被附加到每个文本序列的开头。

13、进一步地，对于具有复杂关系或不具有明确关系的文本，基于prompt模板+分交叉验证的方式进行关系的二分类判断及修正，包括：

14、根据数据集结构构建一组prompt模板，每个模板包含占位符，用于填充头实体、尾实体和预定义的关系；

15、将原文本的头实体和尾实体使用特殊标志进行位置标记，使模型能够感知到头尾实体的位置信息；

16、将头实体、尾实体与预定义的关系填入到模板中，得到一段人工构建的模板文本；

17、将经过位置标记的原文本与模板文本进行拼接；

18、送入bert模型进行二分类的预测，判断当前关系是否存在于当前的两个实体；同时，构建更多的prompt模板，由不同的模板对同一关系进行二分类打分；

19、将由多个模板得到的分类结果进行综合评估，采用多数表决的方法确定最终的输出结果。

20、进一步地，将经过位置标记的原文本与模板文本进行拼接，包括：

21、参照bert设置，在每段文本的尾部插入[sep]标志符，在整个句子的头部插入[cls]标志符。

22、进一步地，所述头实体、尾实体与预定义的关系为对应段落的一级标题、二级标题或一级标题和二级标题的组合。

23、进一步地，所述预训练模型的输入为单句文本或一对文本，包括对应的词嵌入、段嵌入和位置嵌入；在预处理阶段，“[cls]”会作为序列中的第一个标记被附加到每个文本序列的开头，“[cls]”在最后一层encoder输出中的隐向量表示也经常作为整句文本的语义表示被用于多分类任务。

24、本专利技术所带来的有益效果如下：

25、从上述方案可以看出，本专利技术实施例提供一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法，在具有一级标题和二级标题的结构化文本中，基于预训练大模型，采取关系分类的方法，在半结构化文本中，抽取出实体间关系；对于具有复杂关系或不具有明确关系的文本，基于prompt模板+分交叉验证的方式进行关系的二分类判断及修正。本专利技术技术方案，在经典模型的基础上结合数据的特点，设计基于prompt的中文信息抽取方法。

本文档来自技高网...

【技术保护点】

1.一种基于预训练模型、Prompt和交叉验证的船舶关系抽取方法，其特征在于，所述方法，包括；

2.根据权利要1所述的一种基于预训练模型、Prompt和交叉验证的船舶关系抽取方法，其特征在于，在具有一级标题和二级标题的结构化文本中，基于预训练大模型，采取关系分类的方法，在半结构化文本中，抽取出实体间关系，包括：

3.根据权利要求2所述的一种基于预训练模型、Prompt和交叉验证的船舶关系抽取方法，其特征在于，在文本嵌入输入到BERT模型后，得到最后一层Transformer-Encoder的隐状态向量H0＝{h1,…,hT}；

4.根据权利要1所述的一种基于预训练模型、Prompt和交叉验证的船舶关系抽取方法，其特征在于，对于具有复杂关系或不具有明确关系的文本，基于prompt模板+分交叉验证的方式进行关系的二分类判断及修正，包括：

5.根据权利要4所述的一种基于预训练模型、Prompt和交叉验证的船舶关系抽取方法，其特征在于，将经过位置标记的原文本与模板文本进行拼接，包括：

6.根据权利要求1所述的一种基于预训练模型、

7.根据权利要求1所述的一种基于预训练模型、Prompt和交叉验证的船舶关系抽取方法，其特征在于，所述预训练模型的输入为单句文本或一对文本，包括对应的词嵌入、段嵌入和位置嵌入；在预处理阶段，“[CLS]”会作为序列中的第一个标记被附加到每个文本序列的开头，“[CLS]”在最后一层Encoder输出中的隐向量表示也经常作为整句文本的语义表示被用于多分类任务。

...

【技术特征摘要】

1.一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法，其特征在于，所述方法，包括；

2.根据权利要1所述的一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法，其特征在于，在具有一级标题和二级标题的结构化文本中，基于预训练大模型，采取关系分类的方法，在半结构化文本中，抽取出实体间关系，包括：

3.根据权利要求2所述的一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法，其特征在于，在文本嵌入输入到bert模型后，得到最后一层transformer-encoder的隐状态向量h0＝{h1,…,ht}；

4.根据权利要1所述的一种基于预训练模型、prompt和交叉验证的船舶关系抽取方法，其特征在于，对于具有复杂关系或不具有明确关系的文本，基于prompt模板+分交叉验证的方式进行关系的二...

【专利技术属性】
技术研发人员：王明皓，胡杰鑫，匡文琪，李巧平，高道清，殷涛，杨玉婷，高超，
申请(专利权)人：中国船舶集团有限公司综合技术经济研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人