一种基于深度学习的中文病案分词方法技术

技术编号：25224754 阅读：25 留言：0更新日期：2020-08-11 23:13

本发明专利技术提供了一种基于深度学习的中文病案分词方法，分别构建中医领域词典及字嵌入字典；构建中医病案字符的特征向量；利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码；将编码后的两部分隐藏状态进行级联；利用CRF层进行分词序列预测，得到预测标签序列，并对预测标签序列进行评分；利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差，将评分最高的序列作为预测序列。本发明专利技术实现了上下文信息和局部信息相融合，有效识别在中医病案训练数据中没有出现过的生词问题，能够有效解决歧义问题，同时，本发明专利技术可以通过替换库文本和词典，直接应用于其他领域，具有特定领域普遍适用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的中文病案分词方法
本专利技术属于文本分词
，尤其涉及一种基于深度学习的中文病案分词方法。
技术介绍
在中医领域，中医病案是中医传承与创新的重要载体之一，记录了中医诊疗全过程，包括病人的个人信息、症状、证候、治法、处方和药物等信息，拥有层次丰富的医疗知识。近年来随着人工智能、机器学习的发展及在医疗领域的应用，利用自然语言处理技术对中医病案进行分析，挖掘其中的诊疗知识成为可能，而分词是利用计算机进行自然语言处理的首要任务，是计算机分析、理解自然语言的基础。成熟的中文分词算法能够达到更好的自然语言处理效果，帮助计算机理解复杂的中文语言，常用的中文分词方法包括基于词典和基于统计与机器学习这两种算法。基于词典的算法通常是根据字符串进行匹配，扫描字符串，如果发现字符串的子串和词相同，就算匹配，这种分词算法速度快，实现简单，包括正向最大匹配法、逆向最大匹配法和双向匹配分词法。基于统计的分词方法首先利用人工标注的词性和统计特征对中文进行建模，即根据观测到的数据对模型参数进行训练，然后在分词阶段再通过模型计算各种分词出现的概率，将概率最大的分词结果作为最终结果，常用算法包括HMM、CRF、SVM、深度学习等。由于中医病案是非结构化文本，文本中的每一个句子都带有记录者自身的用语习惯，且大都语句短小，信息凝练，增加了病案分词难度。目前，由于中医领域的文本分词困难，大多数针对中医领域的自然语言处理任务都是基于字进行处理的，而鲜有对中医医案分词进行研究，已有多项实验结果表明，当中文分词结果达到较高的水平时，基于...

【技术保护点】
1.一种基于深度学习的中文病案分词方法，其特征在于，包括以下步骤：/nS1、分别构建中医领域词典及字嵌入字典；/nS2、利用所述中医领域词典，构建中医病案字符的特征向量；/nS3、利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码，得到特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态；/nS4、将所述特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态进行级联，得到最终隐藏状态；/nS5、将所述最终隐藏状态输入至CRF层进行分词序列的预测处理，得到预测标签序列，并对预测标签序列进行评分；/nS6、根据评分结果，利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差；/nS7、根据误差筛选出评分最高的分词序列，并将评分最高的分词序列作为预测序列，完成对中文病案的分词处理。/n

【技术特征摘要】
1.一种基于深度学习的中文病案分词方法，其特征在于，包括以下步骤：
S1、分别构建中医领域词典及字嵌入字典；
S2、利用所述中医领域词典，构建中医病案字符的特征向量；
S3、利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码，得到特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态；
S4、将所述特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态进行级联，得到最终隐藏状态；
S5、将所述最终隐藏状态输入至CRF层进行分词序列的预测处理，得到预测标签序列，并对预测标签序列进行评分；
S6、根据评分结果，利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差；
S7、根据误差筛选出评分最高的分词序列，并将评分最高的分词序列作为预测序列，完成对中文病案的分词处理。

2.根据权利要求1所述的基于深度学习的中文病案分词方法，其特征在于，所述步骤S2包括以下步骤：
S201、将中医病案以“，”和“。”进行分句，得到句子集合X，并给定句子x＝(x1,x2,...,xn)，x∈X，其中，n表示句子中的字数；
S202、根据所述中医领域词典和句子集合X中的字符上下文信息，并利用预设的特征模板生成中医病案字符的特征向量。

3.根据权利要求2所述的基于深度学习的中文病案分词方法，其特征在于，所述步骤S202中预设的特征模板包括：
2元特征模板：xk-1xk,xkxk+1；
3元特征模板：xk-2xk-1xk,xkxk+1xk+2；
4元特征模板：xk-3xk-2xk-1xk,xkxk+1xk+2xk+3；
5元特征模板：xk-4xk-3xk-2xk-1xk,xkxk+1xk+2xk+3xk+4；
其中，xk-4表示输入句子中的第k-4个字符，xk-3表示输入句子中的第k-3个字符，xk-2表示输入句子中的第k-2个字符，xk-1表示输入句子中的第k-1个字符，xk表示输入句子中的第k个字符，xk+1表示输入句子中的第k+1个字符，xk+2表示输入句子中的第k+2个字符，xk+3表示输入句子中的第k+3个字符，xk+4表示输入句子中的第k+4个字符。

4.根据权利要求1所述的基于深度学习的中文病案分词方法，其特征在于，所述步骤S3中特征向量编码后得到的隐藏状态的表达式如下：

其中，表示特征向量编码后得到的隐藏状态，表示前向LSTM输出的隐藏状态，表示反向LSTM输出的隐藏状态表示，表示向量对应元素相加，表示以反向方式得到的输出门输出，表示以前向方式得到的输出门输出，表示以前向方式得到的记忆单元的输出，表示以反向方式得到的记忆单元的输出，σ(·)表示sigmoid激活函数，tanh(·)表示双曲正切函数，i表示输入门，f表示遗忘门，c表示记忆单元，⊙表示向量点积运算，o表示输出门，表示前向输出门对应于隐藏状态的参数矩阵，表示反向输出门对应于隐藏状态的参数矩阵，表示前向LSTM第k-1个特征向量的隐藏状态，表示反向LSTM第k-1个特征向量的隐藏状态，表示前向输出门对应于特征向量的参数矩阵，表示反向输出门对应于特征向量的参数矩阵，表示输入的字符xk的特征向量，表示前向输出门的偏置矩阵，表示反向输出门的偏置矩阵，表示前向LSTM第k个特征向量的遗忘门，表示反向LSTM第k个特征向量的遗忘门，表示前向LSTM第k-1个特征向量的记忆单元状态，表示反向LSTM第k-1个特征向量的记忆单元状态，表示前向LSTM第k个特征向量的输入门，表示反向LSTM第k个特征向量的输入门，表示前向LSTM实际输入信息，表示反向LSTM实际输入信息，表示前向实际输入信息对应于隐藏状态的参数矩阵，表示反向实际输入信息对应于隐藏状态的参数矩阵，表示前向实际输入信息对应于特征向量的参数矩阵，表示反向实际输入信息对应于特征向量的参数矩阵，表示前向实际输入信息的偏置矩阵，表示反向实际的输入信息的偏置矩阵，表示前向遗忘门对应于隐藏状态的参数矩阵，表示反向遗忘门对应于隐藏状态的参数矩阵，表示前向遗忘门对应于特征向...

【专利技术属性】
技术研发人员：刘勇国，郑子强，杨尚明，李巧勤，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人