一种基于深度学习的中文病案分词方法技术

技术编号:25224754 阅读:23 留言:0更新日期:2020-08-11 23:13
本发明专利技术提供了一种基于深度学习的中文病案分词方法,分别构建中医领域词典及字嵌入字典;构建中医病案字符的特征向量;利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码;将编码后的两部分隐藏状态进行级联;利用CRF层进行分词序列预测,得到预测标签序列,并对预测标签序列进行评分;利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差,将评分最高的序列作为预测序列。本发明专利技术实现了上下文信息和局部信息相融合,有效识别在中医病案训练数据中没有出现过的生词问题,能够有效解决歧义问题,同时,本发明专利技术可以通过替换库文本和词典,直接应用于其他领域,具有特定领域普遍适用性。

【技术实现步骤摘要】
一种基于深度学习的中文病案分词方法
本专利技术属于文本分词
,尤其涉及一种基于深度学习的中文病案分词方法。
技术介绍
在中医领域,中医病案是中医传承与创新的重要载体之一,记录了中医诊疗全过程,包括病人的个人信息、症状、证候、治法、处方和药物等信息,拥有层次丰富的医疗知识。近年来随着人工智能、机器学习的发展及在医疗领域的应用,利用自然语言处理技术对中医病案进行分析,挖掘其中的诊疗知识成为可能,而分词是利用计算机进行自然语言处理的首要任务,是计算机分析、理解自然语言的基础。成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言,常用的中文分词方法包括基于词典和基于统计与机器学习这两种算法。基于词典的算法通常是根据字符串进行匹配,扫描字符串,如果发现字符串的子串和词相同,就算匹配,这种分词算法速度快,实现简单,包括正向最大匹配法、逆向最大匹配法和双向匹配分词法。基于统计的分词方法首先利用人工标注的词性和统计特征对中文进行建模,即根据观测到的数据对模型参数进行训练,然后在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果,常用算法包括HMM、CRF、SVM、深度学习等。由于中医病案是非结构化文本,文本中的每一个句子都带有记录者自身的用语习惯,且大都语句短小,信息凝练,增加了病案分词难度。目前,由于中医领域的文本分词困难,大多数针对中医领域的自然语言处理任务都是基于字进行处理的,而鲜有对中医医案分词进行研究,已有多项实验结果表明,当中文分词结果达到较高的水平时,基于词的自然语言处理任务比基于字的效果更好。因此,为了实现中医领域的智能化和现代化,亟需一种能够准确处理中医病案并分词的方法,如果仅使用基于词典和基于统计的分词算法,已无法满足在中医领域的高级自然语言处理任务的要求。基于词典的分词方法虽然简单,但是无法解决歧义词和未登录词的问题。歧义的例子,如“南京市长江大桥”可分词为“南京/市长/江/大桥”和“南京市/长江大桥”。未登录词即词典中没有出现的词,也会导致分词效果欠佳。基于统计和机器学习的分词方法能够处理歧义的问题,但处理未登录词的能力与训练本文相关,效果比基于词典的算法更好,但是需要大量的人工标注数据,以及较慢的分词速度。在通用的英文文本上,现有的基于统计和机器学习的分词器,其字符分词准确率可高达97.5%,而同样的分词器却在中文分词上表现欠佳,这是由于中文与英文在字、词、语法、语义上都表现出巨大的差异,尤其是在中医病案这种特定领域,语句短小,语义凝练,并且还有一些中医领域的特殊词汇,如“阴阳”、“虚实”、“寒热”等,因此制定一种能够适用于特定领域的分词方法很有必要。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于深度学习的中文病案分词方法,以解决未登录词和歧义词的问题。为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种基于深度学习的中文病案分词方法,包括以下步骤:S1、分别构建中医领域词典及字嵌入字典;S2、利用所述中医领域词典,构建中医病案字符的特征向量;S3、利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码,得到特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态;S4、将所述特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态进行级联,得到最终隐藏状态;S5、将所述最终隐藏状态输入至CRF层进行分词序列的预测处理,得到预测标签序列,并对预测标签序列进行评分;S6、根据评分结果,利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差;S7、根据误差筛选出评分最高的分词序列,并将评分最高的分词序列作为预测序列,完成对中文病案的分词处理。本专利技术的有益效果是:本专利技术结合中医领域词典和神经网络,通过少量标注病案样本,创新性地引入特征向量的方式,实现了上下文信息和局部信息相融合,有效识别在中医病案训练数据中没有出现过的生词问题,能够有效地解决歧义问题,同时,本专利技术可以通过替换库文本和词典,直接应用于其他领域,具有特定领域普遍适用性。进一步地,所述步骤S2包括以下步骤:S201、将中医病案以“,”和“。”进行分句,得到句子集合X,并给定句子x=(x1,x2,...,xn),x∈X,其中,n表示句子中的字数;S202、根据所述中医领域词典和句子集合X中的字符上下文信息,并利用预设的特征模板生成中医病案字符的特征向量。上述进一步方案的有益效果是:在中医病案中,词语只可能存在于同一个句子中,因此将中医病案分句后只需要对句子进行标注,而不是整篇病案,有效地减少了标注的工作量,同时,标注的句子来自于不同的病案,可以增强模型的鲁棒性。再进一步地,所述步骤S202中预设的特征模板包括:2元特征模板:xk-1xk,xkxk+1;3元特征模板:xk-2xk-1xk,xkxk+1xk+2;4元特征模板:xk-3xk-2xk-1xk,xkxk+1xk+2xk+3;5元特征模板:xk-4xk-3xk-2xk-1xk,xkxk+1xk+2xk+3xk+4;其中,xk-4表示输入句子中的第k-4个字符,xk-3表示输入句子中的第k-3个字符,xk-2表示输入句子中的第k-2个字符,xk-1表示输入句子中的第k-1个字符,xk表示输入句子中的第k个字符,xk+1表示输入句子中的第k+1个字符,xk+2表示输入句子中的第k+2个字符,xk+3表示输入句子中的第k+3个字符,xk+4表示输入句子中的第k+4个字符。上述进一步方案的有益效果是:本专利技术考虑了病案句子一般短小的特点,为了平衡分词效率和精度,本专利技术引用了特征模板,其可以根据实际应用来制定,以便获得更多的词语边界,平衡了效率和精度,具有灵活性。再进一步地,所述步骤S3中特征向量编码后得到的隐藏状态的表达式如下:其中,表示特征向量编码后得到的隐藏状态,表示前向LSTM输出的隐藏状态,表示反向LSTM输出的隐藏状态表示,表示向量对应元素相加,表示以反向方式得到的输出门输出,表示以前向方式得到的输出门输出,表示以前向方式得到的记忆单元的输出,表示以反向方式得到的记忆单元的输出,σ(·)表示sigmoid激活函数,tanh(·)表示双曲正切函数,i表示输入门,f表示遗忘门,c表示记忆单元,⊙表示向量点积运算,o表示输出门,表示前向输出门对应于隐藏状态的参数矩阵,表示反向输出门对应于隐藏状态的参数矩阵,表示前向LSTM第k-1个特征向量的隐藏状态,表示反向LSTM第k-1个特征向量的隐藏状态,表示前向输出门对应于特征向量的参数矩阵,表示反向输出门对应于特征向量的参数矩阵,表示输入的字符xk的特征向量,表示前向输出门的偏置矩阵,表示反向输出门的偏置矩阵,表示前向本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的中文病案分词方法,其特征在于,包括以下步骤:/nS1、分别构建中医领域词典及字嵌入字典;/nS2、利用所述中医领域词典,构建中医病案字符的特征向量;/nS3、利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码,得到特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态;/nS4、将所述特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态进行级联,得到最终隐藏状态;/nS5、将所述最终隐藏状态输入至CRF层进行分词序列的预测处理,得到预测标签序列,并对预测标签序列进行评分;/nS6、根据评分结果,利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差;/nS7、根据误差筛选出评分最高的分词序列,并将评分最高的分词序列作为预测序列,完成对中文病案的分词处理。/n

【技术特征摘要】
1.一种基于深度学习的中文病案分词方法,其特征在于,包括以下步骤:
S1、分别构建中医领域词典及字嵌入字典;
S2、利用所述中医领域词典,构建中医病案字符的特征向量;
S3、利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码,得到特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态;
S4、将所述特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态进行级联,得到最终隐藏状态;
S5、将所述最终隐藏状态输入至CRF层进行分词序列的预测处理,得到预测标签序列,并对预测标签序列进行评分;
S6、根据评分结果,利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差;
S7、根据误差筛选出评分最高的分词序列,并将评分最高的分词序列作为预测序列,完成对中文病案的分词处理。


2.根据权利要求1所述的基于深度学习的中文病案分词方法,其特征在于,所述步骤S2包括以下步骤:
S201、将中医病案以“,”和“。”进行分句,得到句子集合X,并给定句子x=(x1,x2,...,xn),x∈X,其中,n表示句子中的字数;
S202、根据所述中医领域词典和句子集合X中的字符上下文信息,并利用预设的特征模板生成中医病案字符的特征向量。


3.根据权利要求2所述的基于深度学习的中文病案分词方法,其特征在于,所述步骤S202中预设的特征模板包括:
2元特征模板:xk-1xk,xkxk+1;
3元特征模板:xk-2xk-1xk,xkxk+1xk+2;
4元特征模板:xk-3xk-2xk-1xk,xkxk+1xk+2xk+3;
5元特征模板:xk-4xk-3xk-2xk-1xk,xkxk+1xk+2xk+3xk+4;
其中,xk-4表示输入句子中的第k-4个字符,xk-3表示输入句子中的第k-3个字符,xk-2表示输入句子中的第k-2个字符,xk-1表示输入句子中的第k-1个字符,xk表示输入句子中的第k个字符,xk+1表示输入句子中的第k+1个字符,xk+2表示输入句子中的第k+2个字符,xk+3表示输入句子中的第k+3个字符,xk+4表示输入句子中的第k+4个字符。


4.根据权利要求1所述的基于深度学习的中文病案分词方法,其特征在于,所述步骤S3中特征向量编码后得到的隐藏状态的表达式如下:







































其中,表示特征向量编码后得到的隐藏状态,表示前向LSTM输出的隐藏状态,表示反向LSTM输出的隐藏状态表示,表示向量对应元素相加,表示以反向方式得到的输出门输出,表示以前向方式得到的输出门输出,表示以前向方式得到的记忆单元的输出,表示以反向方式得到的记忆单元的输出,σ(·)表示sigmoid激活函数,tanh(·)表示双曲正切函数,i表示输入门,f表示遗忘门,c表示记忆单元,⊙表示向量点积运算,o表示输出门,表示前向输出门对应于隐藏状态的参数矩阵,表示反向输出门对应于隐藏状态的参数矩阵,表示前向LSTM第k-1个特征向量的隐藏状态,表示反向LSTM第k-1个特征向量的隐藏状态,表示前向输出门对应于特征向量的参数矩阵,表示反向输出门对应于特征向量的参数矩阵,表示输入的字符xk的特征向量,表示前向输出门的偏置矩阵,表示反向输出门的偏置矩阵,表示前向LSTM第k个特征向量的遗忘门,表示反向LSTM第k个特征向量的遗忘门,表示前向LSTM第k-1个特征向量的记忆单元状态,表示反向LSTM第k-1个特征向量的记忆单元状态,表示前向LSTM第k个特征向量的输入门,表示反向LSTM第k个特征向量的输入门,表示前向LSTM实际输入信息,表示反向LSTM实际输入信息,表示前向实际输入信息对应于隐藏状态的参数矩阵,表示反向实际输入信息对应于隐藏状态的参数矩阵,表示前向实际输入信息对应于特征向量的参数矩阵,表示反向实际输入信息对应于特征向量的参数矩阵,表示前向实际输入信息的偏置矩阵,表示反向实际的输入信息的偏置矩阵,表示前向遗忘门对应于隐藏状态的参数矩阵,表示反向遗忘门对应于隐藏状态的参数矩阵,表示前向遗忘门对应于特征向...

【专利技术属性】
技术研发人员:刘勇国郑子强杨尚明李巧勤
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1