分词和词性识别方法、装置及电子病历的分析方法、装置制造方法及图纸

技术编号:24498751 阅读:43 留言:0更新日期:2020-06-13 04:08
本发明专利技术公开了一种分词和词性识别方法、装置,方法包括:根据目标电子病历获取待识别短语语料;利用预先设置的电子病历后结构化系统对待识别短语语料进行切分,得到目标词语;利用预先设置的歧义词库结合双向最大匹配算法确定出目标词语中的歧义词,并利用条件随机场算法为各歧义词设置目标词性标注;利用预先设置的医学词性词库结合双向最大匹配算法为目标词语中的非歧义词设置目标词性标注。相比于现有技术,本发明专利技术能够在提高歧义词的识别准确率的同时提高总体的词性识别的准确度和处理效率。本发明专利技术还提供了一种电子病历的分析方法、装置,有益效果如上述。

Segmentation and part of speech recognition methods, devices and analysis methods and devices of EMR

【技术实现步骤摘要】
分词和词性识别方法、装置及电子病历的分析方法、装置
本专利技术涉及自然语言
,特别涉及一种分词和词性识别方法、装置及一种电子病历的分析方法、装置。
技术介绍
随着信息化建设的快速发展,数据呈现爆发式增长,特别是在医院等医疗机构,每天会产生大量数据及医疗记录,且很多重要数据都是以非结构化文本形式存储。对于医院中大量的人口基数所产生的医疗数据,必须有效地进行信息化、结构化,否则将会丢失其中宝贵的信息资源。那么该如何剖析、挖掘病历,转化为能被利用、有价值的“宝藏”呢?目前,随着大数据及人工智能迅速发展,通过医学语料标注及自然语言技术处理,将非结构化文本转化为结构化数据,并可将数据应用于辅助临床决策、风险预测、科研分析等任务中。其中,在将电子病历中的短语进行分词和词性识别的过程中,现有技术一般是利用HMM(隐马尔可夫)算法结合医学词性词库为短语中的各目标词语设置对应的目标词性标注,或者采用纯粹CRF++模型以及深度学习模型BiLSTM+CRF的常用深度学习实体识别框架为短语中的各目标词语设置对应的目标词性标注。但是,在实际操作中,由于根据短语切分出的目标词语在不同的语境中可能是不同的词性,即,目标词语可能是歧义词。对此,现有技术中,通过CRF++算法或者BiLSTM+CRF算法,对切分出的每一个目标词语进行计算,计算出各目标词语对应的可能性较大的词性。但是这种方法中,不仅需要对所有的目标词语进行计算,以确定其目标词性,并且受到目标词语所在语境的变化,确定出的目标词性的准确性会受到较大影响;同时在训练语料多,标注量大的情况下,整体模型的训练迭代速度和模型预测速度都受到较大的影响。传统的纯粹基于医学词性词库利用双向最大匹配算法结合HMM的方法进行医学术语切分和词性识别的方法(如Jieba,NLPIR等)无法满足对于歧义词的识别,无法满足医疗领域对歧义词识别的需求。因此,如何提高词性识别的准确度和处理效率,是本领域技术人员目前需要解决的技术问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种分词和词性识别方法,能够提高词性识别的准确度和处理效率;本专利技术的另一核心是提供一种分词和词性识别装置及一种电子病历的分析方法、装置,均具有上述有益效果。为解决上述技术问题,本专利技术提供一种分词和词性识别方法,包括:根据目标电子病历获取待识别短语语料;利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语;利用预先设置的歧义词库结合双向最大匹配算法确定出所述目标词语中的歧义词,并利用条件随机场算法为各所述歧义词设置目标词性标注;利用预先设置的医学词性词库结合双向最大匹配算法为所述目标词语中的非歧义词设置目标词性标注;其中,所述歧义词库的设置过程包括:通过bert预训练词向量模型计算各词语在训练短语语料中的词向量,并计算同一个词语在不同的所述训练短语语料中的相似度;根据投票机制无监督筛选出相似度低于预设阈值的词语,并设置所述歧义词库。优选地,所述利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语的过程,具体包括:利用所述电子病历后结构化系统中的分词模型,依据双向最大匹配算法对所述待识别短语语料进行切分,得到候选词语;利用Viterb动态规划算法依据所述候选词语和所述待识别短语语料进行解码,得到最大概率词语切分结果,确定出所述目标词语。优选地,在所述利用所述电子病历后结构化系统中的分词模型,依据双向最大匹配算法对所述待识别短语语料进行切分,得到候选词语之后,进一步包括:在得出未登录词时,利用条件随机场算法和所述未登录词对所述待识别短语语料进行切分,得到所述目标词语。优选地,所述医学词性词库的设置过程,具体包括:预先在医学词典中为各医学词条设置对应的词性;使用TIRE树将所述医学词典中的各所述医学词条和词性对应存储在数据库中,得到所述医学词性词库。为解决上述技术问题,本专利技术还提供一种分词和词性识别装置,包括:词库构建模块,用于通过bert预训练词向量模型计算各词语在训练短语语料中的词向量,并计算同一个词语在不同的所述训练短语语料中的相似度;根据投票机制无监督筛选出相似度低于预设阈值的词语,并设置歧义词库;获取模块,用于根据目标电子病历获取待识别短语语料;切分模块,用于利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语;第一识别模块,用于利用预先设置的所述歧义词库结合双向最大匹配算法确定出所述目标词语中的歧义词,并利用条件随机场算法为各所述歧义词设置目标词性标注;第二识别模块,用于利用预先设置的医学词性词库结合双向最大匹配算法为所述目标词语中的非歧义词设置目标词性标注。为解决上述技术问题,本专利技术还提供另一种分词和词性识别装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述任一种分词和词性识别方法的步骤。为解决上述技术问题,本专利技术提供一种电子病历的分析方法,包括:预先根据原始电子病历和与各分析类型对应的机器学习算法训练出与各所述分析类型对应的结构化模型,构建电子病历后结构化系统;其中,利用预先设置的歧义词库和条件随机场算法训练得出所述电子病历后结构化系统中的词性识别模型;获取目标电子病历,并利用所述电子病历后结构化系统对所述目标电子病历进行分析,得出分析结果。为解决上述技术问题,本专利技术还提供一种电子病历的分析装置,包括:系统构建模块,用于预先根据原始电子病历和与各分析类型对应的机器学习算法训练出与各所述分析类型对应的结构化模型,构建电子病历后结构化系统;其中,利用预先设置的歧义词库和条件随机场算法训练得出所述电子病历后结构化系统中的词性识别模型;电子病历分析模块,用于获取目标电子病历,并利用所述电子病历后结构化系统对所述目标电子病历进行分析,得出分析结果。本专利技术提供的一种分词和词性识别方法,首先根据目标电子病历获取待识别短语语料;利用预先设置的电子病历后结构化系统对待识别短语语料进行切分,得到目标词语;然后利用预先设置的歧义词库结合双向最大匹配算法确定出目标词语中的歧义词,并利用条件随机场算法为各歧义词设置目标词性标注;利用预先设置的医学词性词库结合双向最大匹配算法为目标词语中的非歧义词设置目标词性标注;并且,歧义词库的设置过程包括:通过bert预训练词向量模型计算各词语在训练短语语料中的词向量,并计算同一个词语在不同的训练短语语料中的相似度;根据投票机制无监督筛选出相似度低于预设阈值的词语,并设置歧义词库。可见,本方法通过预先设置歧义词库,筛选出目标词语中的歧义词,因此仅需要对歧义词进行计算,利用条件随机场算法结合双向最大匹配算法为各歧义词设置目标词性标注,对非歧义词直接利用预先设置的医学词性词库结合双向最大匹配算法设置目标词性标注;相较于现有技术,本方法能够提高歧义词的识别准确率,能够提高总体本文档来自技高网
...

【技术保护点】
1.一种分词和词性识别方法,其特征在于,包括:/n根据目标电子病历获取待识别短语语料;/n利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语;/n利用预先设置的歧义词库结合双向最大匹配算法确定出所述目标词语中的歧义词,并利用条件随机场算法为各所述歧义词设置目标词性标注;/n利用预先设置的医学词性词库结合双向最大匹配算法为所述目标词语中的非歧义词设置目标词性标注;/n其中,所述歧义词库的设置过程包括:/n通过bert预训练词向量模型计算各词语在训练短语语料中的词向量,并计算同一个词语在不同的所述训练短语语料中的相似度;/n根据投票机制无监督筛选出相似度低于预设阈值的词语,并设置所述歧义词库。/n

【技术特征摘要】
1.一种分词和词性识别方法,其特征在于,包括:
根据目标电子病历获取待识别短语语料;
利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语;
利用预先设置的歧义词库结合双向最大匹配算法确定出所述目标词语中的歧义词,并利用条件随机场算法为各所述歧义词设置目标词性标注;
利用预先设置的医学词性词库结合双向最大匹配算法为所述目标词语中的非歧义词设置目标词性标注;
其中,所述歧义词库的设置过程包括:
通过bert预训练词向量模型计算各词语在训练短语语料中的词向量,并计算同一个词语在不同的所述训练短语语料中的相似度;
根据投票机制无监督筛选出相似度低于预设阈值的词语,并设置所述歧义词库。


2.根据权利要求1所述的方法,其特征在于,所述利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语的过程,具体包括:
利用所述电子病历后结构化系统中的分词模型,依据双向最大匹配算法对所述待识别短语语料进行切分,得到候选词语;
利用Viterb动态规划算法依据所述候选词语和所述待识别短语语料进行解码,得到最大概率词语切分结果,确定出所述目标词语。


3.根据权利要求2所述的方法,其特征在于,在所述利用所述电子病历后结构化系统中的分词模型,依据双向最大匹配算法对所述待识别短语语料进行切分,得到候选词语之后,进一步包括:
在得出未登录词时,利用条件随机场算法和所述未登录词对所述待识别短语语料进行切分,得到所述目标词语。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述医学词性词库的设置过程,具体包括:
预先在医学词典中为各医学词条设置对应的词性;
使用TIRE树将所述医学词典中的各所述医学词条和词性对应存储在数据库中,得到所述医学词性词库。


5.一种分词和词性识别装置...

【专利技术属性】
技术研发人员:何国平王旭英甄化春郭亚强尹伟东董驰
申请(专利权)人:医惠科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1