当前位置: 首页 > 专利查询>浙江大学专利>正文

基于预训练语言模型的命名体识别方法、电子设备、介质技术

技术编号:38614802 阅读:15 留言:0更新日期:2023-08-26 23:42
本发明专利技术公开了一种基于预训练语言模型的命名体识别方法,其特征在于,所述方法具体包括:获取自适应训练语料,包括:获取领域相关文本,对领域相关文本进行实体识别,将识别出的实体连接到知识库得到<实体,知识>对,将<实体,知识>对转化为提示文本,对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料;构建预训练语言模型;利用自适应训练语料训练预训练语言模型;利用训练好的预训练语言模型进行命名体识别。利用训练好的预训练语言模型进行命名体识别。

【技术实现步骤摘要】
基于预训练语言模型的命名体识别方法、电子设备、介质


[0001]本专利技术涉及自然语言理解领域,尤其涉及一种基于预训练语言模型的命名体识别方法、电子设备、介质。

技术介绍

[0002]最近基于预训练——微调的迁移学习范式在自然语言理解任务上取了巨大成功。预训练过程可以概括为语言模型在大规模无标签语料上应用自监督学习,以捕获丰富的词汇、句法和语义信息,这些信息对众多下游任务有很大帮助。虽然基于预训练——微调的方法在通用领域的下游任务上取得了不错的效果,但在面临特定领域的问题是会产生领域偏移问题。具体来说,比如一个在通用领域语料上完成预训练的语言模型无法高效适用于医疗文本的分析。预训练语料和下游任务语料的领域差异成为性能提升的瓶颈。
[0003]现有技术中,基于预训练的自然语言处理方法通过将外部知识图谱与语言模型相结合,从而增强其理解和推理能力,然后存在以下缺陷:
[0004](1)数据稀缺性:知识增强语言模型的性能很大程度上取决于训练数据的质量和数量。由于知识图谱数据的获取和标注成本较高,导致训练数据的稀缺性问题。
[0005](2)知识表示问题:知识表示是知识增强中一个非常关键的环节,而如何将知识图谱中的丰富知识信息转化为适合语言模型的表示形式是一个挑战。目前,仍存在如何表示复杂的知识和关系的问题。
[0006](3)多样性问题:知识增强语言模型的知识图谱来源可能是有限的,因此,可能会存在一些知识盲区和偏差。例如,一些地区或领域的知识可能没有被覆盖到,或者某些类型的实体或关系可能没有被充分表示。
[0007](4)预测效率问题:由于知识增强语言模型需要查询知识图谱以获取额外的知识信息,因此预测效率相比传统的语言模型可能会受到影响,需要进一步的优化。
[0008]现有技术中,面向特定领域的预训练语言模型通常是基于大规模文本数据集和领域特定的知识资源(例如生物医学文献或科学文献)进行预训练的。这种方法的缺点包括:
[0009](1)数据收集困难:需要收集特定领域的大量数据。但有些领域的数据很难收集,例如医疗领域的数据可能受到隐私和保密性的限制;
[0010](2)训练时间长:与传统的预训练模型相比,需要在特定领域上进行预训练,这可能需要更长的训练时间
[0011](3)不能跨领域迁移:训练的模型是专门为特定领域而设计的,因此不能轻易地将其迁移到其他领域

技术实现思路

[0012]针对现有技术不足,本专利技术提供了一种基于预训练语言模型的命名体识别方法、电子设备、介质。
[0013]根据本专利技术实施例的第一方面,提供了一种基于预训练语言模型的命名体识别方
法,所述方法具体包括:
[0014]获取自适应训练语料,包括:获取领域相关文本,对领域相关文本进行实体识别,将识别出的实体连接到知识库得到<实体,知识>对,将<实体,知识>对转化为提示文本,对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料;
[0015]构建预训练语言模型;
[0016]利用自适应训练语料训练预训练语言模型;
[0017]利用训练好的预训练语言模型进行命名体识别。
[0018]根据本专利技术实施例的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于预训练语言模型的命名体识别方法。
[0019]根据本专利技术实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于预训练语言模型的命名体识别方法。
[0020]与现有技术相比,本专利技术的有益效果为:本专利技术提出了一种基于预训练语言模型的命名体识别方法,在获取自适应训练语料的过程中,从下游任务训练集即命名体识别任务训练集中抽取领域相关文本,并对其进行实体识别,将识别出的实体连接到知识库得到<实体,知识>对,本专利技术通过引入外部知识帮助预训练语言模型基于轻量数据完成快速自适应,以此避免收集下游命名体识别任务特定领域的大量数据。同时,本专利技术设计了一提示模板结构(Prompt Template),将领域文本和领域知识融合成一个输入序列,将知识库中的丰富知识信息转化为适合语言模型的表示形式。
附图说明
[0021]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本专利技术实施例提供的基于预训练语言模型的命名体识别方法的流程图;
[0023]图2为本专利技术实施例提供的自适应预训练的示意图;
[0024]图3为本专利技术实施例提供的语料生成的示意图;
[0025]图4为本专利技术实施例提供的预训练语言模型的结构与编码层的示意图;
[0026]图5为本专利技术实施例提供的一种电子设备的示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0029]如图1所示,本专利技术提出了一种基于预训练语言模型的命名体识别方法,所述方法具体包括以下步骤:
[0030]步骤S1,获取自适应训练语料,包括:获取领域相关文本,对领域相关文本进行实体识别,将识别出的实体连接到知识库得到<实体,知识>对,将<实体,知识>对转化为提示文本,对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料;
[0031]进一步地,所述步骤S1具体包括以下子步骤:
[0032]步骤S101,获取领域相关文本;
[0033]具体地,记下游任务(命名体识别)训练集为其中X
i
=[w1,w2,

]是一段语料,Y
i
是标签,本实例从D中获取作为领域相关文本X。
[0034]步骤S102,对步骤S101得到的领域相关语料进行实体识别。
[0035]具体地,在本实例中,对于语料X
i
=[w1,w2,

],使用开源工具BLINK标记出领域相关文本X中的实体位置w
(e)
∈X。
[0036]步骤S103,将识别出的实体连接到知识库得到<实体,知识&本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练语言模型的命名体识别方法,其特征在于,所述方法具体包括:获取自适应训练语料,包括:获取领域相关文本,对领域相关文本进行实体识别,将识别出的实体连接到知识库得到<实体,知识>对,将<实体,知识>对转化为提示文本,对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料;构建预训练语言模型;利用自适应训练语料训练预训练语言模型;利用训练好的预训练语言模型进行命名体识别。2.根据权利要求1所述的基于预训练语言模型的命名体识别方法,其特征在于,获取领域相关语料包括:记命名体识别训练集为其中X
i
=[w1,w2,

]是一段语料,Y
i
是标签,从命名体识别训练集D中获取作为领域相关文本X。3.根据权利要求1所述的基于预训练语言模型的命名体识别方法,其特征在于,对领域相关文本进行实体识别,将识别出的实体连接到知识库得到<实体,知识>对包括:在领域相关文本X中的实体位置w
(e)
;定义知识库K,包含<实体,知识>对;将领域相关文本X中的实体位置链接至知识库K中的实体e
i
,并获取到与实体相关的知识k
i
。4.根据权利要求1所述的基于预训练语言模型的命名体识别方法,其特征在于,将<实体,知识>对转化为提示文本包括:设计提示模板为[]is a[],其中[]依次为实体和知识,将<实体,知识>对转化为提示文本P,将提示文本P记为p=[e,is,a,k],其中,e为实体,k为知识。5.根据权利要求1所述的基于预训练语言模型的命名体识别方法,其特征在于,对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料包括:使用WordPiece算法对领域相关文本X和提示文本P进行分词,得到词序列;同时,在词序列的开头添加[CLS]起始标志符,在词序列的末尾添加[SEP]结束标志符;保持领域相关文本X的位置编...

【专利技术属性】
技术研发人员:赵俊博杨涵韬
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1