基于预训练语言模型的命名体识别方法、电子设备、介质技术

技术编号：38614802 阅读：15 留言：0更新日期：2023-08-26 23:42

本发明专利技术公开了一种基于预训练语言模型的命名体识别方法，其特征在于，所述方法具体包括：获取自适应训练语料，包括：获取领域相关文本，对领域相关文本进行实体识别，将识别出的实体连接到知识库得到<实体，知识>对，将<实体，知识>对转化为提示文本，对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料；构建预训练语言模型；利用自适应训练语料训练预训练语言模型；利用训练好的预训练语言模型进行命名体识别。利用训练好的预训练语言模型进行命名体识别。

全部详细技术资料下载

【技术实现步骤摘要】
基于预训练语言模型的命名体识别方法、电子设备、介质

[0001]本专利技术涉及自然语言理解领域，尤其涉及一种基于预训练语言模型的命名体识别方法、电子设备、介质。

技术介绍

[0002]最近基于预训练——微调的迁移学习范式在自然语言理解任务上取了巨大成功。预训练过程可以概括为语言模型在大规模无标签语料上应用自监督学习，以捕获丰富的词汇、句法和语义信息，这些信息对众多下游任务有很大帮助。虽然基于预训练——微调的方法在通用领域的下游任务上取得了不错的效果，但在面临特定领域的问题是会产生领域偏移问题。具体来说，比如一个在通用领域语料上完成预训练的语言模型无法高效适用于医疗文本的分析。预训练语料和下游任务语料的领域差异成为性能提升的瓶颈。
[0003]现有技术中，基于预训练的自然语言处理方法通过将外部知识图谱与语言模型相结合，从而增强其理解和推理能力，然后存在以下缺陷：
[0004](1)数据稀缺性：知识增强语言模型的性能很大程度上取决于训练数据的质量和数量。由于知识图谱数据的获取和标注成本较高，导致训练数据的稀缺性问题。
[0005](2)知识表示问题：知识表示是知识增强中一个非常关键的环节，而如何将知识图谱中的丰富知识信息转化为适合语言模型的表示形式是一个挑战。目前，仍存在如何表示复杂的知识和关系的问题。
[0006](3)多样性问题：知识增强语言模型的知识图谱来源可能是有限的，因此，可能会存在一些知识盲区和偏差。例如，一些地区或领域的知识可能没有被覆盖到，或者某些类型的实体或关系可能没有被...

【技术保护点】

【技术特征摘要】
1.一种基于预训练语言模型的命名体识别方法，其特征在于，所述方法具体包括：获取自适应训练语料，包括：获取领域相关文本，对领域相关文本进行实体识别，将识别出的实体连接到知识库得到<实体，知识>对，将<实体，知识>对转化为提示文本，对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料；构建预训练语言模型；利用自适应训练语料训练预训练语言模型；利用训练好的预训练语言模型进行命名体识别。2.根据权利要求1所述的基于预训练语言模型的命名体识别方法，其特征在于，获取领域相关语料包括：记命名体识别训练集为其中X
i
＝[w1,w2,
…
]是一段语料，Y
i
是标签，从命名体识别训练集D中获取作为领域相关文本X。3.根据权利要求1所述的基于预训练语言模型的命名体识别方法，其特征在于，对领域相关文本进行实体识别，将识别出的实体连接到知识库得到<实体，知识>对包括：在领域相关文本X中的实体位置w
(e)
；定义知识库K，包含<实体，知识>对；将领域相关文本X中的实体位置链接至知识库K中的实体e
i
，并获取到与实体相关的知识k
i
。4.根据权利要求1所述的基于预训练语言模型的命名体识别方法，其特征在于，将<实体，知识>对转化为提示文本包括：设计提示模板为[]is a[]，其中[]依次为实体和知识，将<实体，知识>对转化为提示文本P，将提示文本P记为p＝[e,is,a,k]，其中，e为实体，k为知识。5.根据权利要求1所述的基于预训练语言模型的命名体识别方法，其特征在于，对领域相关文本和提示文本按词序列、位置序列和分段序列进行编码叠加得到自适应训练语料包括：使用WordPiece算法对领域相关文本X和提示文本P进行分词，得到词序列；同时，在词序列的开头添加[CLS]起始标志符，在词序列的末尾添加[SEP]结束标志符；保持领域相关文本X的位置编...

【专利技术属性】
技术研发人员：赵俊博，杨涵韬，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人