一种面向中文医疗文本命名实体识别的方法技术

技术编号：23984626 阅读：27 留言：0更新日期：2020-04-29 12:56

本发明专利技术属于医学文本标注技术领域，具体涉及一种面向中文医疗文本命名实体识别的方法。本发明专利技术通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注，在此基础上提出了一种多粒度特征融合的模型，首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中，通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合，并利用ID‑CNN‑CRF算法训练模型，以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中，同时能较好地解决医疗领域中不同实体之间长度差异较大的问题，并且对于未登录实体的识别有着很好的效果。

A named entity recognition method for Chinese medical texts

全部详细技术资料下载

【技术实现步骤摘要】
一种面向中文医疗文本命名实体识别的方法
本专利技术属于医学文本标注
，具体涉及一种面向中文医疗文本命名实体识别的方法。
技术介绍
医学文本的标注问题是自然语言处理在医学领域应用的一个热点问题。医学文本主要包括医学类的期刊和患者就医过程中所形成的电子病历，医学文本被认为是医疗信息系统的核心数据，因此使用计算机程序从这些文本中自动挖掘出这些知识就显得十分重要，该项技术主要涉及使用程序代码在医疗文本上应用自然语言处理(NLP)、信息抽取(包括实体和关系等)等相关技术进行分析和挖掘。医疗命名实体识别是自然语言处理应用在医疗领域中的重要任务之一，传统的命名实体识别方法主要有基于规则匹配的算法和基于机器学习的算法两大类。然而传统的机器学习模型都存在着一个共同的缺点——对于特征提取的要求很高，需要事先对预处理的数据进行大量的人工标注才能训练出较好的效果，因此建模的成本很高。近年来，神经网络在通用领域的命名实体识别中展现出了很大的优势，主要表现在基于神经网络的深度学习方法具有很强的泛化性，本专利技术将利用卷积神经网络实现对医疗实体的识别工作。相比于一般领域的命名实体，医学领域的NER任务通常面临着以下几个困难：(1)医学领域通常包含更多的实体类别(2)待识别和抽取的实体上下文中往往会存在很多不同的修饰和限定词，从而导致实体的边界难以划分和确定(3)医学领域统一的命名规范，即待识别的实体可能存在很多种不同的表述方式(4)不同实体间的长度可能存在巨大的差异，对于一些疾病名称和药品名称...

【技术保护点】
1.一种面向中文医疗文本命名实体识别的方法，其特征在于，包括以下步骤：/n步骤1：输入待识别的中文医疗文本，进行预处理；/n步骤1.1：根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注，S＝(w

【技术特征摘要】
1.一种面向中文医疗文本命名实体识别的方法，其特征在于，包括以下步骤：
步骤1：输入待识别的中文医疗文本，进行预处理；
步骤1.1：根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注，S＝(w1，w2，…wi，…wn)，wi表示对S进行分词之后，该句子中的第i个词语；
步骤1.2：对每个句子进行分字处理，S＝(c1，c2…ci…cm)，其中ci表示对句子S进行分字处理后的第i个字符；
步骤2：对于每一个句子S，对组成它的字、词、部首三个粒度的特征分别进行提取；
步骤2.1：词语特征的提取及向量表示；
对于分词和标注之后的每个句子中的每个词语wi，将该词语的第一个字符用1表示，最后一个字符用3表示，出现在中间位置的字符统一编码为2；如果一个词语的长度小于2，则其所对应的向量在终止位置之后统一用0补齐；对于只由单个汉字独立构成的词，统一用全为0的20维向量来表示，得到词语的向量
步骤2.2：字特征的提取和向量表示；
利用现有的Word2Vec模型中的Skip-Gram算法对文本中的每一个字符进行训练，将每个字符用100维的数值向量进行表示，得到字向量

【专利技术属性】
技术研发人员：黄少滨，张柏嘉，申林山，李熔盛，李轶，余日昌，颜伟，邹长明，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人