基于NLP技术的医疗大健康数据采集分析方法技术

技术编号:39196482 阅读:9 留言:0更新日期:2023-10-27 08:43
本发明专利技术涉及自然语言处理领域,具体涉及基于NLP技术的医疗大健康数据采集分析方法,获取用于自然语言处理的问诊数据,采用自然语言处理工具LTP处理问诊数据获取各问诊词语,构建问诊词图并计算问诊词语之间的局部关联性及文本局部词语关联系数;获取各问诊词语的词句匹配因子及文本语义关联系数,进而获取各问诊词语的问诊文本关联度;构建问诊文本疾病相关性,基于此计算各问诊词语的问诊文本疾病代表度及关键词综合权重;根据关键词综合权重获取疾病的关键词集合,结合关键词集合对数据进行快速检索。从而结合自然语言处理实现医疗大健康数据采集分析,提高医疗健康大数据的检索效率。效率。效率。

【技术实现步骤摘要】
基于NLP技术的医疗大健康数据采集分析方法


[0001]本申请涉及自然语言处理领域,具体涉及基于NLP技术的医疗大健康数据采集分析方法。

技术介绍

[0002]医药数据检索、查询网站本质是让用户能在最短的时间内查找到最全面且精准的信息,随着自然语言处理、深度学习等新兴技术的发展以及电子病历等医疗健康数据的大量积累,使得医疗智能辅助成为了可能,而快速精准的获取有用信息是帮助用户高效检索相关数据信息的关键,并可以辅助医生快速做出更好的医疗决策。而有用信息的提取是进行疾病分类前的重要步骤,相关关键词提取的好坏直接影响数据检索的效率及准确性。
[0003]TextRank算法是一种基于图结构的关键词提取算法,该算法不依赖于预先定义的词汇表,并且适用于不同语种的文本中,被广泛应用于文本的自动分类和信息检索。但是传统的TextRank算法是默认每个节点的初始权重都相等,但每个词汇对语义表达的影响程度不同,相同初始权重的设置方式会影响关键词提取的质量,不仅无法反应不同词汇的重要性,还容易受到噪音词汇的干扰,使得算法的精度和效果也受到影响。
[0004]综上所述,本专利技术提出基于NLP技术的医疗大健康数据采集分析方法,获取用于自然语言处理的数据集,基于各问诊词语的分布情况构建各问诊词语关联性相关的各指标,进而获取各个问诊词语的问诊文本疾病代表度,并构建各个问诊词语的关键词综合权重,获取TextRank算法中每个节点的初始权重,实现目标疾病的各个问诊文本的关键词的提取,可通过关键词集合对各种疾病进行快速检索,提高医疗健康数据的检索效率。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提供基于NLP技术的医疗大健康数据采集分析方法,以解决现有的问题。
[0006]本专利技术的基于NLP技术的医疗大健康数据采集分析方法采用如下技术方案:本专利技术一个实施例提供了基于NLP技术的医疗大健康数据采集分析方法,该方法包括以下步骤:采集多种疾病的问诊数据,采用自然语言处理工具LTP处理问诊数据获取各问诊词语,对各问诊词语进行编码获取疾病的各问诊词语数据集合、问诊语句数据集合;对于每种疾病的各问诊词语数据集合、问诊语句数据集合,根据问诊词语数据集合中各问诊词语之间的关系构建问诊词图;结合问诊词图中各问诊词语之间的关系得到各问诊词语的关联等级;根据问诊词语在问诊语句中局域窗口内各问诊词语出现的次数得到问诊词语之间的局部关联性;根据所述局部关联性得到问诊词语的文本局部词语关联系数;获取各问诊词语之间的词句匹配因子,根据所述词句匹配因子得到各问诊词语的文本语义关联系数;将各问诊词语的关联等级、文本局部词语关联系数以及文本语义关联系数的乘积作为各问诊词语的问诊文本关联度;构建各问诊词语的问诊文本疾病相关性;根据
所述问诊文本关联度以及问诊文本疾病相关性得到各问诊词语的问诊文本疾病代表度;将问诊文本疾病代表度与预设词性权重乘积的归一化值作为问诊词语的关键词综合权重;根据关键词综合权重获取疾病的关键词集合,结合各疾病的关键词集合对医疗健康数据进行快速检索。
[0007]优选的,所述根据问诊词语数据集合中各问诊词语之间的关系构建问诊词图,包括:将问诊词语数据集合中各问诊词语作为节点,问诊词语数据集合作为问诊词图中的节点集合;当两个问诊词语在问诊语句中的位置序号差异小于预设阈值时,则两个问诊词语之间存在边,连接存在边的两个问诊词语,将所有问诊词语之间边的集合作为问诊词图的边集合;问诊词图中各节点从外到内依次处于第1、2、3、

、K层级,其中K为预设层级数。
[0008]优选的,所述结合问诊词图中各问诊词语之间的关系得到各问诊词语的关联等级包括:将与问诊词语相连的各边在问诊词图中所占层级K值的最大值作为问诊词语的关联等级。
[0009]优选的,所述根据问诊词语在问诊语句中局域窗口内各问诊词语出现的次数得到问诊词语之间的局部关联性包括:以各问诊词语为中心获取所在问诊语句的局域窗口,对于局域窗口内的各问诊词语,若问诊词语在所述局域窗口内出现次数为零,则问诊词语之间局部关联性为零,否则,问诊词语之间局部关联性为1。
[0010]优选的,所述根据所述局部关联性得到问诊词语的文本局部词语关联系数包括:计算所有问诊词语在局域窗口中出现次数平方和值的开方,并计算所有问诊词语局部关联性的均值,将所述开方与所述均值乘积的结果作为问诊词语的文本局部词语关联系数。
[0011]优选的,所述获取各问诊词语之间的词句匹配因子,包括:对于各问诊词语,若问诊词语所在问诊语句中存在其他问诊词语使得问诊词语与所述其他问诊词语之间的编辑距离为零,则问诊词语与所述其他问诊词语之间的匹配因子为1,否则为零。
[0012]优选的,所述根据所述词句匹配因子得到各问诊词语的文本语义关联系数,表达式为:将各问诊词语作为待分析问诊词语,计算各包含待分析问诊词语的问诊语句中待分析问诊词语与其他所有问诊词语之间匹配因子的均值,计算所有包含待分析问诊词语的问诊语句的所述均值的均值,作为各问诊词语的文本语义关联系数。
[0013]优选的,所述构建各问诊词语的问诊文本疾病相关性,包括:构建决策函数,当问诊语句中包含问诊词语时,则决策函数值为1,否则决策函数值为零,根据决策函数获取问诊词语的问诊文本疾病相关度,表达式为:;
式中,为第i种疾病的第j个问诊词语数据集合中第l个问诊词语,表示问诊词语的问诊文本疾病相关性;h( )表示决策函数;表示第j种疾病的所有问诊文本中除问诊词语所在问诊语句外的第个问诊语句;表示第j种疾病中所有问诊文本中除问诊词语所在问诊语句外其余问诊语句的个数。
[0014]优选的,所述根据所述问诊文本关联度以及问诊文本疾病相关性得到各问诊词语的问诊文本疾病代表度,包括:统计问诊词语在疾病的所有问诊文本中出现的次数,获取以所述次数为指数自然常数为底数的指数函数的计算结果,将问诊文本关联度、问诊文本疾病相关性以及所述计算结果的乘积作为问诊词语的问诊文本疾病代表度。
[0015]优选的,所述根据关键词综合权重获取疾病的关键词集合包括:对于疾病的各问诊词语数据集合,将问诊词语数据集合中各问诊数据的关键词综合权重从大到小进行排序,将排序前N的关键词综合权重对应的问诊词语作为关键词,将疾病的所有问诊词语数据集合的关键词作为疾病的关键词集合,其中N为预设关键词数量。
[0016]本专利技术至少具有如下有益效果:本专利技术提出基于NLP技术的医疗大健康数据采集分析方法,针对传统的TextRank算法中初始权重设置相同而导致最终关键词提取效果不好的问题,本专利技术基于疾病的各个问诊数据中的问诊词语之间的相关性以及问诊词语在问诊文本中的分布情况,得到各个问诊词语的问诊文本关联度,结合各个问诊语句的相似度构建出问诊文本疾病代表度,并结合问诊词语词性的不同得到各个问诊词语的关键词综合权重,进而提高关键词集合的提取精度,实现数据的快速检索,并降低无关数据对关键数据检索的影响,提高了医疗健康数据的检索效率。
附图说明<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于NLP技术的医疗大健康数据采集分析方法,其特征在于,该方法包括以下步骤:采集多种疾病的问诊数据,采用自然语言处理工具LTP处理问诊数据获取各问诊词语,对各问诊词语进行编码获取疾病的各问诊词语数据集合、问诊语句数据集合;对于每种疾病的各问诊词语数据集合、问诊语句数据集合,根据问诊词语数据集合中各问诊词语之间的关系构建问诊词图;结合问诊词图中各问诊词语之间的关系得到各问诊词语的关联等级;根据问诊词语在问诊语句中局域窗口内各问诊词语出现的次数得到问诊词语之间的局部关联性;根据所述局部关联性得到问诊词语的文本局部词语关联系数;获取各问诊词语之间的词句匹配因子,根据所述词句匹配因子得到各问诊词语的文本语义关联系数;将各问诊词语的关联等级、文本局部词语关联系数以及文本语义关联系数的乘积作为各问诊词语的问诊文本关联度;构建各问诊词语的问诊文本疾病相关性;根据所述问诊文本关联度以及问诊文本疾病相关性得到各问诊词语的问诊文本疾病代表度;将问诊文本疾病代表度与预设词性权重乘积的归一化值作为问诊词语的关键词综合权重;根据关键词综合权重获取疾病的关键词集合,结合各疾病的关键词集合对医疗健康数据进行快速检索。2.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述根据问诊词语数据集合中各问诊词语之间的关系构建问诊词图,包括:将问诊词语数据集合中各问诊词语作为节点,问诊词语数据集合作为问诊词图中的节点集合;当两个问诊词语在问诊语句中的位置序号差异小于预设阈值时,则两个问诊词语之间存在边,连接存在边的两个问诊词语,将所有问诊词语之间边的集合作为问诊词图的边集合;问诊词图中各节点从外到内依次处于第1、2、3、

、K层级,其中K为预设层级数。3.如权利要求2所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述结合问诊词图中各问诊词语之间的关系得到各问诊词语的关联等级包括:将与问诊词语相连的各边在问诊词图中所占层级K值的最大值作为问诊词语的关联等级。4.如权利要求1所述的基于NLP技术的医疗大健康数据采集分析方法,其特征在于,所述根据问诊词语在问诊语句中局域窗口内各问诊词语出现的次数得到问诊词语之间的局部关联性包括:以各问诊词语为中心获取所在问诊语句的局域窗口,对于局域窗口内的各问诊词语,若问诊词语在所述局域窗口内出现次数为零,则问诊词语之间局部关联性为零,否则,问诊词语之间局部关联性为1。5.如权利要求4所述的基于NLP技术的医疗大健康数据采集分析方法,其...

【专利技术属性】
技术研发人员:肖俊赵海珠彭嘉聪
申请(专利权)人:北京珺安惠尔健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1