System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,更具体地,涉及一种命名实体识别方法。
技术介绍
1、命名实体识别是指从大量的数据中高效、便捷获取包含重要语义信息的实体的方法,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息抽取的重要基础部分,通过命名实体识别,识别出来的实体对于构建问答系统、建设知识图谱以及生成文本摘要等自然语言处理任务有重要的作用。
2、中文实体词中短长度字符词占比较多,但随着中文语言体系的发展,多字符组成的新词不断新增,现代汉语中长词的数量持续增加、占比也有所增加。面向中文的基于bert的命名实体识别方法仅以字符粒度作为预测识别目标,缺乏对多字符和多词组成的长词的关注与预测识别,对细分领域中的特定术语、专业名词等长词识别精度低、准确率低,例如在生物医学、法律文本、政务文件等中常有大量专业术语和复杂名称,这些实体往往由多个字符或简短词组成。
技术实现思路
1、本专利技术针对现有技术中存在的技术问题,提供一种命名实体识别方法,用于解决面向中文命名实体识别特定领域内缺乏长词识别的问题。
2、本专利技术提供了一种命名实体识别方法,包括:
3、步骤s1,对训练数据集中的每一个文本数据进行字符切分,提取每一个字符的字符特征和字符位置特征;
4、步骤s2,根据掩盖策略对文本数据进行掩盖,得到多个掩盖片段序列,生成每一个掩盖片段序列内部的合成跨度词,构成文本数据对应的合成跨度词列表;
5、步骤s3,基于合成跨度词中每一个字符
6、步骤s4,根据所有合成跨度词的向量特征,基于掩码语言任务和跨度边界任务对命名实体识别模型进行训练;
7、步骤s5,基于训练后的命名实体识别模型对待识别文本数据中的命名实体进行识别。
8、本专利技术提供的一种命名实体识别方法,根据掩盖策略对文本数据进行掩盖,得到多个掩盖片段序列,生成合成跨度词列表;基于合成跨度词中每一个字符的字符特征和字符位置特征,提取每一个合成跨度词的向量特征;根据所有合成跨度词的向量特征,并基于掩码语言任务和跨度边界任务对命名实体识别模型进行训练;基于训练后的命名实体识别模型识别待识别文本数据中的命名实体。针对现有的掩码语言模型训练以中文字符粒度进行预测,预测训练缺乏词语级粒度,本专利技术引入跨度内合成词的生成提取、位置标记方法和长度信息嵌入,实现中文词粒度级别预测,提取跨度词,获得命名实体识别的长词结果,适用于长词识别。
本文档来自技高网...【技术保护点】
1.一种命名实体识别方法,其特征在于,包括:
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述步骤S1,对训练数据集中的每一个文本数据进行字符切分,提取每一个字符的字符特征和字符位置特征,包括:
3.根据权利要求1所述的命名实体识别方法,其特征在于,所述步骤S2,根据掩盖策略对文本数据进行掩盖,得到多个掩盖片段序列,包括:
4.根据权利要求1所述的命名实体识别方法,其特征在于,所述步骤S2中,生成每一个掩盖片段序列内部的合成跨度词,构成文本数据对应的合成跨度词列表,包括:
5.根据权利要求4所述的命名实体识别方法,其特征在于,所述步骤S3,基于合成跨度词中每一个字符的字符特征和字符位置特征,提取所述合成跨度词列表中每一个合成跨度词的向量特征,包括:
6.根据权利要求5所述的命名实体识别方法,其特征在于,所述步骤S4,根据所有合成跨度词的向量特征,基于掩码语言任务和跨度边界任务对命名实体识别模型进行训练,包括:
7.根据权利要求6所述的命名实体识别方法,其特征在于,所述基于多个合成跨度词的第一预训练特
8.根据权利要求6所述的命名实体识别方法,其特征在于,所述计算合成跨度词内部字符与合成跨度词边界位置邻接字符的相对位置编码向量,包括:
9.根据权利要求1所述的命名实体识别方法,其特征在于,所述步骤S4中,对命名实体识别模型进行训练的过程中,根据掩码语言任务对命名实体识别模型进行训练得到的第一损失和跨度边界任务对命名实体识别模型进行训练得到的第二损失,计算命名实体识别模型的联合损失值:
10.根据权利要求1所述的命名实体识别方法,其特征在于,所述步骤S5,基于训练后的命名实体识别模型对待识别文本数据中的命名实体进行识别,包括:
...【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述步骤s1,对训练数据集中的每一个文本数据进行字符切分,提取每一个字符的字符特征和字符位置特征,包括:
3.根据权利要求1所述的命名实体识别方法,其特征在于,所述步骤s2,根据掩盖策略对文本数据进行掩盖,得到多个掩盖片段序列,包括:
4.根据权利要求1所述的命名实体识别方法,其特征在于,所述步骤s2中,生成每一个掩盖片段序列内部的合成跨度词,构成文本数据对应的合成跨度词列表,包括:
5.根据权利要求4所述的命名实体识别方法,其特征在于,所述步骤s3,基于合成跨度词中每一个字符的字符特征和字符位置特征,提取所述合成跨度词列表中每一个合成跨度词的向量特征,包括:
6.根据权利要求5所述的命名实体识别方法,其特征在于,所述步骤s4,根据所...
【专利技术属性】
技术研发人员:杨志祥,熊筠轲,刘育含,杨小涛,程佳斌,余将其,周子涵,汪家漩,
申请(专利权)人:中船凌久高科武汉有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。