问诊正则表达式生成方法、装置、设备及存储介质制造方法及图纸

技术编号:29490596 阅读:18 留言:0更新日期:2021-07-30 19:02
本发明专利技术涉及数据处理技术领域,公开了一种问诊正则表达式生成方法、装置、设备及存储介质。通过从采集到的标注数据中提取出病症特征,基于病症特征构建出共现矩阵,从共现矩阵中选择出组合频率较高的特征组合作为与诊断结果对应的特征组合,然后将选择出来的特征组合进行向量化处理,最后基于向量化后的特征组合生成正则表达式,通过这样的方式实现正则表达式的自动生成,其利用的疾病知识图谱模型对标注数据中进行病症特征的提取,避免了人为提取是产生的理解偏差而导致最后生成的表达式对诊断结果的识别不够精准的现象。此外,本发明专利技术还涉及区块链技术,标注数据可存储于区块链中。

【技术实现步骤摘要】
问诊正则表达式生成方法、装置、设备及存储介质
本专利技术涉及数据处理
,尤其涉及一种问诊正则表达式生成方法、装置、设备及存储介质。
技术介绍
随着当代信息时代的高速发展,每天有大量的信息数据产生和需要处理。尤其是在智能医疗领域预检、分诊、诊断过程中,由于模型分类的不足以及难以解决的疑难病症,需要更严谨准确的识别,而在一些医疗场景中通过公采用了正则表达式来对问诊者的问诊信息进行识别以实现对问诊者症状的诊断,但是目前所使用的正则表达式主要是通过人工撰写的方式来生成,传统的人工撰写正则表达式的方式,需要按照“查看语料→判断语料中关键词→编写词库→撰写正则式”的步骤,流程繁多,且人力查看语料的效率较低。另外在基于规则的语义识别方面,需要人工撰写大量的语料和添加词库,耗费人力且低效,完全依靠人工撰写正则表达式无法及时、准确地处理每天新增的信息数据,并且人工撰写正则表达式对工作人员的要求较高。
技术实现思路
本专利技术的主要目的在于解决现有的正则表达式生成方式生成正则表达式的精准度较低的技术问题。本专利技术第一方面提供了一种问诊正则表达式生成方法,所述问诊正则表达式生成方法包括:获取多个问诊数据和对应的诊断结果,并基于所述诊断结果对对应的问诊数据进行标注,得到表达式生成样本集;利用预设的疾病知识图谱识别模型,对所述表达式生成样本集中的每个样本进行病症特征的提取,生成每个样本的特征集;根据所有样本的特征集生成共现矩阵,并计算所述共现矩阵中各病症特征之间的组合频率;筛选所述组合频率中满足预设值的病症特征组合进行向量化处理,并基于向量化后的特征组合生成对应的正则表达式。可选的,在本专利技术第一方面的第一种实现方式中,所述基于所述诊断结果对对应的问诊数据进行标注,得到表达式生成样本集包括:根据所述诊断结果,从预设的诊断标签表中查询出与所述诊断结果对应的标签;确定与所述诊断结果对应的问诊数据,利用中文标记算法对所述问诊数据中的每个字设置上所述标签的标记,得到标记数据;根据所述标签对所有所述标记数据进行分类,生成多个标记数据子集,其中所述分类为将所有所述标记数据中标签相同的进行合并,得到一个标记数据子集;将多个标记数据子集生成表达式样本集。可选的,在本专利技术第一方面的第二种实现方式中,所述将多个标记数据子集生成表达式样本集包括:根据中文语法规则对每个标记数据子集中的标记数据进行单独分析,确定所述标记数据子集的主体内容和非主体内容;利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除,直到所有标记数据子集完成去除非主体内容后,生成表达式样本集。可选的,在本专利技术第一方面的第三种实现方式中,所述根据中文语法规则对每个标记数据子集中的标记数据进行单独分析,确定所述标记数据子集的主体内容和非主体内容包括:根据中文语法规则对每个标记数据子集中的标记数据进行分词处理,得到所述标记数据子集的字词及对应的词性;根据语法规则和所述标记数据子集中的字词和对应的词性,对所述标记数据子集中的标记数据进行句式进行分析,得到所述标记数据子集的句式结构;根据所述句式结构,提取出所述标记数据子集中每个标记数据的主体内容和非主体内容。可选的,在本专利技术第一方面的第四种实现方式中,所述疾病知识图谱识别模型包括停用词识别网络和病症识别网络,所述利用预设的疾病知识图谱识别模型,对所述表达式生成样本集中的每个样本进行病症特征的提取,生成每个样本的特征集包括:利用所述停用词识别网络对所述标记数据子集的主体内容中的每个字词进行语义的识别,并基于识别的结果筛选出无明显语义的字词进行标注,得到标注主体内容;利用分析技术将所述标注主体内容中无明显语义的字词进行删除,得到样本分词;通过所述病症识别网络对所述样本分词进行病症特征的识别和分割,得到所述标记数据子集的特征集。可选的,在本专利技术第一方面的第五种实现方式中,所述根据所有样本的特征集生成共现矩阵,并计算所述共现矩阵中各病症特征之间的组合频率包括:根据各所述标记数据子集的特征集中的病症特征构建对应的矩阵表,其中,所述矩阵表包括矩阵表头和矩阵内容表,所述矩阵表头包括列表头和行表头,每个矩阵表中的列表头和行表头中均包含有对应标记数据子集的特征集中的所有病症特征;统计各标记数据子集中的所述列表头和行表头的病症特征组合在同一个标记数据中出现的次数,并添加到对应的矩阵内容表中,得到各标记数据子集的共现矩阵;将所述次数计算对应的病症特征组合的组合频率。可选的,在本专利技术第一方面的第六种实现方式中,所述筛选所述组合频率中满足预设值的病症特征组合进行向量化处理,并基于向量化后的特征组合生成对应的正则表达式包括:对每个共现矩阵中的所有病症特征组合按照组合频率从高到底的顺序进行排序,并从中选择排序靠前的N个病症特征组合作为所述共现矩阵对应的诊断结果的诊断特征组合,N为大于1的整数;将所述诊断特征组合中的每个病症特征进行向量化处理,得到特征向量;根据所述特征向量生成对应的正则表达式。本专利技术第二方面提供了一种问诊正则表达式生成装置,所述问诊正则表达式生成装置包括:标注模块,用于获取多个问诊数据和对应的诊断结果,并基于所述诊断结果对对应的问诊数据进行标注,得到表达式生成样本集;提取模块,用于利用预设的疾病知识图谱识别模型,对所述表达式生成样本集中的每个样本进行病症特征的提取,生成每个样本的特征集;计算模块,用于根据所有样本的特征集生成共现矩阵,并计算所述共现矩阵中各病症特征之间的组合频率;生成模块,用于筛选所述组合频率中满足预设值的病症特征组合进行向量化处理,并基于向量化后的特征组合生成对应的正则表达式。可选的,在本专利技术第二方面的第一种实现方式中,所述标注模块包括:查询单元,用于根据所述诊断结果,从预设的诊断标签表中查询出与所述诊断结果对应的标签;标记单元,用于确定与所述诊断结果对应的问诊数据,利用中文标记算法对所述问诊数据中的每个字设置上所述标签的标记,得到标记数据;分类单元,用于根据所述标签对所有所述标记数据进行分类,生成多个标记数据子集,其中所述分类为将所有所述标记数据中标签相同的进行合并,得到一个标记数据子集;样本生成单元,用于将多个标记数据子集生成表达式样本集。可选的,在本专利技术第二方面的第二种实现方式中,所述样本生成单元具体用于:根据中文语法规则对每个标记数据子集中的标记数据进行单独分析,确定所述标记数据子集的主体内容和非主体内容;利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除,直到所有标记数据子集完成去除非主体内容后,生成表达式样本集。可选的,在本专利技术第二方面的第三种实现方式中,所述样本生成单元具体用于:根据中文语法规则对每个标记数据子集中的标记数据进行分词处理,得到所述标记数据子集的字词及对应的词性;根据语法规则和所述标记数据子集中的字词和对应的词性,对所述标记数据子集中的标记数据进行句式进行分析,得到所述标记数据子集的句式结构;根据所述句式结构,提取出所述标记数据子集中每个标记数据的主体内容和非主体内容。可选的,在本专利技术第二方面的第四种实现方式中本文档来自技高网...

【技术保护点】
1.一种问诊正则表达式生成方法,其特征在于,所述问诊正则表达式生成方法包括:/n获取多个问诊数据和对应的诊断结果,并基于所述诊断结果对对应的问诊数据进行标注,得到表达式生成样本集;/n利用预设的疾病知识图谱识别模型,对所述表达式生成样本集中的每个样本进行病症特征的提取,生成每个样本的特征集;/n根据所有样本的特征集生成共现矩阵,并计算所述共现矩阵中各病症特征之间的组合频率;/n筛选所述组合频率中满足预设值的病症特征组合进行向量化处理,并基于向量化后的特征组合生成对应的正则表达式。/n

【技术特征摘要】
1.一种问诊正则表达式生成方法,其特征在于,所述问诊正则表达式生成方法包括:
获取多个问诊数据和对应的诊断结果,并基于所述诊断结果对对应的问诊数据进行标注,得到表达式生成样本集;
利用预设的疾病知识图谱识别模型,对所述表达式生成样本集中的每个样本进行病症特征的提取,生成每个样本的特征集;
根据所有样本的特征集生成共现矩阵,并计算所述共现矩阵中各病症特征之间的组合频率;
筛选所述组合频率中满足预设值的病症特征组合进行向量化处理,并基于向量化后的特征组合生成对应的正则表达式。


2.根据权利要求1所述的问诊正则表达式生成方法,其特征在于,所述基于所述诊断结果对对应的问诊数据进行标注,得到表达式生成样本集包括:
根据所述诊断结果,从预设的诊断标签表中查询出与所述诊断结果对应的标签;
确定与所述诊断结果对应的问诊数据,利用中文标记算法对所述问诊数据中的每个字设置上所述标签的标记,得到标记数据;
根据所述标签对所有所述标记数据进行分类,生成多个标记数据子集,其中所述分类为将所有所述标记数据中标签相同的进行合并,得到一个标记数据子集;
将多个标记数据子集生成表达式样本集。


3.根据权利要求2所述的问诊正则表达式生成方法,其特征在于,所述将多个标记数据子集生成表达式样本集包括:
根据中文语法规则对每个标记数据子集中的标记数据进行单独分析,确定所述标记数据子集的主体内容和非主体内容;
利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除,直到所有标记数据子集完成去除非主体内容后,生成表达式样本集。


4.根据权利要求3所述的问诊正则表达式生成方法,其特征在于,所述根据中文语法规则对每个标记数据子集中的标记数据进行单独分析,确定所述标记数据子集的主体内容和非主体内容包括:
根据中文语法规则对每个标记数据子集中的标记数据进行分词处理,得到所述标记数据子集的字词及对应的词性;
根据语法规则和所述标记数据子集中的字词和对应的词性,对所述标记数据子集中的标记数据进行句式进行分析,得到所述标记数据子集的句式结构;
根据所述句式结构,提取出所述标记数据子集中每个标记数据的主体内容和非主体内容。


5.根据权利要求2-4中任一项所述的问诊正则表达式生成方法,其特征在于,所述疾病知识图谱识别模型包括停用词识别网络和病症识别网络,所述利用预设的疾病知识图谱识别模型,对所述表达式生成样本集中的每个样本进行病症特征的提取,生成每个样本的特征集包括:
利用所述停用词识别网络对所述标记数据子集的主体内容中的每个字词进行语义的识别,并基于识别的结果筛选出无明显语义的字词进行标注...

【专利技术属性】
技术研发人员:周尚思
申请(专利权)人:康键信息技术深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1