一种面向中文医疗文本命名实体识别的方法技术

技术编号:23984626 阅读:27 留言:0更新日期:2020-04-29 12:56
本发明专利技术属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明专利技术通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID‑CNN‑CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。

A named entity recognition method for Chinese medical texts

【技术实现步骤摘要】
一种面向中文医疗文本命名实体识别的方法
本专利技术属于医学文本标注
,具体涉及一种面向中文医疗文本命名实体识别的方法。
技术介绍
医学文本的标注问题是自然语言处理在医学领域应用的一个热点问题。医学文本主要包括医学类的期刊和患者就医过程中所形成的电子病历,医学文本被认为是医疗信息系统的核心数据,因此使用计算机程序从这些文本中自动挖掘出这些知识就显得十分重要,该项技术主要涉及使用程序代码在医疗文本上应用自然语言处理(NLP)、信息抽取(包括实体和关系等)等相关技术进行分析和挖掘。医疗命名实体识别是自然语言处理应用在医疗领域中的重要任务之一,传统的命名实体识别方法主要有基于规则匹配的算法和基于机器学习的算法两大类。然而传统的机器学习模型都存在着一个共同的缺点——对于特征提取的要求很高,需要事先对预处理的数据进行大量的人工标注才能训练出较好的效果,因此建模的成本很高。近年来,神经网络在通用领域的命名实体识别中展现出了很大的优势,主要表现在基于神经网络的深度学习方法具有很强的泛化性,本专利技术将利用卷积神经网络实现对医疗实体的识别工作。相比于一般领域的命名实体,医学领域的NER任务通常面临着以下几个困难:(1)医学领域通常包含更多的实体类别(2)待识别和抽取的实体上下文中往往会存在很多不同的修饰和限定词,从而导致实体的边界难以划分和确定(3)医学领域统一的命名规范,即待识别的实体可能存在很多种不同的表述方式(4)不同实体间的长度可能存在巨大的差异,对于一些疾病名称和药品名称,实体的长度可能会很长,甚至某些实体可能包含10个以上的字符,而又存在部分实体仅包含2-3个字符,这显然加大了标注任务的难度。
技术实现思路
本专利技术的目的在于提供一种面向中文医疗文本命名实体识别的方法。本专利技术的目的通过如下技术方案来实现:包括以下步骤:步骤1:输入待识别的中文医疗文本,进行预处理;步骤1.1:根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注,S=(w1,w2,…wi,…wn),wi表示对S进行分词之后,该句子中的第i个词语;步骤1.2:对每个句子进行分字处理,S=(c1,c2…ci…cm),其中ci表示对句子S进行分字处理后的第i个字符;步骤2:对于每一个句子S,对组成它的字、词、部首三个粒度的特征分别进行提取;步骤2.1:词语特征的提取及向量表示;对于分词和标注之后的每个句子中的每个词语wi,将该词语的第一个字符用1表示,最后一个字符用3表示,出现在中间位置的字符统一编码为2;如果一个词语的长度小于2,则其所对应的向量在终止位置之后统一用0补齐;对于只由单个汉字独立构成的词,统一用全为0的20维向量来表示,得到词语的向量步骤2.2:字特征的提取和向量表示;利用现有的Word2Vec模型中的Skip-Gram算法对文本中的每一个字符进行训练,将每个字符用100维的数值向量进行表示,得到字向量步骤2.3:部首特征的提取和向量表示;将文本中每个单字的部首拆分出来,设其部首所对应的会意字为P,则通过检索字向量字典可以得到该会意字所对应的100维字向量,将该100维向量看作是该字的部首向量,记为步骤3:将提取出的三种特征进行特征融合,得到用于实体识别和分类的特征的联合向量表示;步骤3.1:字向量和部首向量的融合;使用逐点相加法对二者进行特征融合,将两个向量的对应分量逐个进行相加,用相加之后的分量作为融合之后新的特征向量的分量,记将字向量和部首向量融合之后的特征向量为x=(x1,x2,…xl),该过程可以用如下的公式表示:x=(x1,x2,…xl)=(μ1+θ1,μ2+θ2,…μt+xl)步骤3.2:词语特征的融合;对于字+部首的特征向量与词语特征向量进行融合,由于二者的维度不相同,这里使用维度拼接的方法进行特征融合,记融合之后的最终特征向量为Y=(y1…yd),其中d表示融合之后特征的维度,则维度拼接的过程由如下的公式表示:其中,d=k+l,通过前面的条件可知,这里的d=120,即最终得到的融合之后的特征向量为120维。本专利技术的有益效果在于:本专利技术通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID-CNN-CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。附图说明图1为本专利技术中对原始医疗文本进行分词和标注等预处理的流程图。图2为本专利技术中对语料数据集中的字、词、部首三个粒度的不同特征进行抽取并进行特征融合的流程图。图3是本专利技术在模型训练阶段使用的膨胀卷积神经网络(ID-CNN)计算层的示意图。图4是本专利技术实施例中模型训练阶段的流程图。图5是本专利技术实施例中设定的12类不同类型的实体的类型、标记与备注信息表。图6是本专利技术实施例中实验软件环境表。图7是本专利技术实施例中模型的配置参数表。具体实施方式下面结合附图对本专利技术做进一步描述。本专利技术提供了一种面向中文医疗文本命名实体识别的方法,涉及医疗实体识别
该实体识别方法包括:通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID-CNN-CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。一种面向中文医疗文本命名实体识别的方法,包括以下步骤:步骤1:输入待识别的中文医疗文本,进行预处理;步骤1.1:根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注,S=(w1,w2,…wi,…wn),wi表示对S进行分词之后,该句子中的第i个词语;步骤1.2:对每个句子进行分字处理,S=(c1,c2…ci…cm),其中ci表示对句子S进行分字处理后的第i个字符;步骤2:对于每一个句子S,对组成它的字、词、部首三个粒度的特征分别进行提取;步骤2.1:词语特征的提取及向量表示;对于分词和标注之后的每个句子中的每个词语wi,将该词语的第一个字符用1表示,最后一本文档来自技高网
...

【技术保护点】
1.一种面向中文医疗文本命名实体识别的方法,其特征在于,包括以下步骤:/n步骤1:输入待识别的中文医疗文本,进行预处理;/n步骤1.1:根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注,S=(w

【技术特征摘要】
1.一种面向中文医疗文本命名实体识别的方法,其特征在于,包括以下步骤:
步骤1:输入待识别的中文医疗文本,进行预处理;
步骤1.1:根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注,S=(w1,w2,…wi,…wn),wi表示对S进行分词之后,该句子中的第i个词语;
步骤1.2:对每个句子进行分字处理,S=(c1,c2…ci…cm),其中ci表示对句子S进行分字处理后的第i个字符;
步骤2:对于每一个句子S,对组成它的字、词、部首三个粒度的特征分别进行提取;
步骤2.1:词语特征的提取及向量表示;
对于分词和标注之后的每个句子中的每个词语wi,将该词语的第一个字符用1表示,最后一个字符用3表示,出现在中间位置的字符统一编码为2;如果一个词语的长度小于2,则其所对应的向量在终止位置之后统一用0补齐;对于只由单个汉字独立构成的词,统一用全为0的20维向量来表示,得到词语的向量
步骤2.2:字特征的提取和向量表示;
利用现有的Word2Vec模型中的Skip-Gram算法对文本中的每一个字符进行训练,将每个字符用100维的数值向量进行表示,得到字向量

【专利技术属性】
技术研发人员:黄少滨张柏嘉申林山李熔盛李轶余日昌颜伟邹长明
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1