【技术实现步骤摘要】
一种基于子树倒排索引的病历图序列检索方法及系统
本专利技术涉及病历图序列检索领域,特别是涉及一种基于子树倒排索引的病历图序列检索方法及系统。
技术介绍
随着信息技术的飞速发展,各行各业的数据形式越来越生动多样化,产生了内容丰富的文本、图片、音频、视频等多模态数据。由于多模态数据本身具有多样性、复杂性与随意性,难以实现结构化统一管理。其次,这些数据之间往往是有关联的,只有挖掘出这些潜在的关联,才能实现数据真正的价值。传统的数据库技术往往针对单一模态的数据进行处理,不同模态的数据使用不同的复杂数据模型来表示,如字符串、树、图、高维数据、动态序列等。这些方法不能表示多模态数据之间的关联性,无法满足人们对信息检索的综合性需求。一些跨媒体统一索引技术的提出解决了部分具有明显语义关联性数据的跨域查询问题。但是,这些解决方案只适用于数据关联性较高的社交媒体数据等,而对语义关系较为模糊的医疗健康数据却无法进行处理。由于数据基础不牢靠,分析的结果往往意义不大,缺乏实用性。因此,如何针对语义关联模糊的多模态数据进行有效的统一建模与索引是本研究首先要解决的重要科学问题。此外,多模态医疗健康数据的结构和内容并非一成不变,而是会随着时间的推移发生演绎和变化。例如,电子病历经常含有病人的多次医疗记录,每次记录产生的数据结构和内容往往不是固定不变的;而医疗移动平台收集的健康信息如体温等数据更是随着用户身体状态的改变而差异较大。分析清楚数据的这种动态变化属性在患者病情的预测和用户健康情况的监测上面都具有重要意义。现有的医疗大数据分析 ...
【技术保护点】
1.一种基于子树倒排索引的病历图序列检索方法,其特征在于,所述方法包括:/n步骤S1:基于子树分解算法构建病历图序列数据库的三层倒排索引;所述三层倒排索引表包括图序列倒排索引表、图结构倒排索引表和子树倒排索引表;/n步骤S2:获取待查询的图序列,所述图序列包括多个图结构,所述图结构分解为一个子树序列,所述子树序列包括多个子树结构,再将每一个子树结构分解为一个节点序列,所述节点序列包括多个节点;/n步骤S3:给定待查询子树结构t
【技术特征摘要】
1.一种基于子树倒排索引的病历图序列检索方法,其特征在于,所述方法包括:
步骤S1:基于子树分解算法构建病历图序列数据库的三层倒排索引;所述三层倒排索引表包括图序列倒排索引表、图结构倒排索引表和子树倒排索引表;
步骤S2:获取待查询的图序列,所述图序列包括多个图结构,所述图结构分解为一个子树序列,所述子树序列包括多个子树结构,再将每一个子树结构分解为一个节点序列,所述节点序列包括多个节点;
步骤S3:给定待查询子树结构tq的size表;
步骤S4:基于子树倒排索引表和size表,采用子树近似查询算法获得各子树结构对应的子树近似表;
步骤S5:基于图结构倒排索引表和各子树结构对应的子树近似表,采用图结构近似查询算法获得各图结构对应的图结构近似表;
步骤S6:基于图序列倒排索引表和各图结构对应的图结构近似表,采用图序列近似查询算法获得各图序列对应的图序列近似表。
2.根据权利要求1所述的基于子树倒排索引的病历图序列检索方法,其特征在于,所述步骤S1具体包括:
步骤S11:将每个所述病历图序列分解为一个病历图结构序列,以所述病历图结构序列中每个病历图结构为索引,建立所有病历图序列对应的图序列倒排索引表;
步骤S12:将每个病历图结构分解为一个病历子树序列,以所述病历子树序列中每个病历子树结构为索引,建立所有病历图结构对应的图结构倒排索引表;
步骤S13:将每个病历子树结构分解为一个病历节点序列,以所述病历节点序列中每个病历节点为索引,建立所有病历子树结构对应的子树倒排索引表。
3.根据权利要求1所述的基于子树倒排索引的病历图序列检索方法,其特征在于,所述步骤S4具体包括:
步骤S41:访问所述子树倒排索引表,获得各节点对应的子树排序表;
步骤S42:按照size表对各子树排序表进行分类,小于size表的各子树排序表利用α=2*|Lq|-(t(β)+τ)计算α;大于或等于size表的各子树排序表利用α=-|Lq|-(t(β)-2*τ)计算α;其中,α表示各子树与待查询子树结构tq的近似距离,Lq表示待查询子树结构tq的叶子标签个数,t(β)表示公共叶子标签个数,τ表示在size表中最后看到的size数值;
步骤S43:访问所述子树排序表中当前的子树结构,并判断α是否大于子树近似表中子树近似距离最大者;如果α大于子树近似表中子树近似距离最大者,则停止后续访问,输出各子树结构对应的子树近似表;如果α小于或等于子树近似表中子树近似距离最大者,则将所述子树排序表中当前访问的子树结构加入子树近似表中,访问所述子树排序表中下一个子树结构,直至α大于子树近似表中子树近似距离最大者时为止;每个子树近似表包括k1个子树结构,后续将子树近似表中的子树结构称为近似子树。
4.根据权利要求3所述的基于子树倒排索引的病历图序列检索方法,其特征在于,所述步骤S5具体包括:
步骤S51:逐行访问子树近似表,将子树结构的k1个近似子树对应的图结构倒排索引表进行组合和排序,获得图结构排序表;
步骤S52:利用计算子树近似距离评估总和Γ,其中,M表示子树排序表的总个数,Θj表示第j个子树排序表中当前访问位置的子树近似距离;
步骤S53:访问图结构排序表中当前的图结构,并判断子树近似距离评估总和是否大于图结构近似表中图结构近似距离最大者;如果大于图结构近似表中图结构近似距离最大者,则停止后续访问,输出各图结构对应的图结构近似表;如果小于或等于图结构近似表中图结构近似距离最大者,则将各图结构加入图结构近似表中,访问图结构排序表中下一个图结构,直至子树近似距离评估总和大于图结构近似表中图结构近似距离最大者为止;每个图结构近似表包括k2个图结构,后续将图结构近似表中的图结构称为近似图结构。
5.根据权利要求4所述的基于子树倒排索引的病历图序列检索方法,其特征在于,所述步骤S6具体包括:
步骤S61:逐行访问图结构近似表,将图结构的k2个近似图结构对应的图序列倒排索引表进行组合和排序,获得图序列排序表;
步骤S62:利用计算图结构近似距离评估总和K,其中,N表示图结构排序表的总个数,ωk表示第k个图结构排序表中当前访问位置的图结构近似距离;
步骤S63:访问图序列排序表中当前的图序列,并判断图结构近似距离评估总和是否大于图序列近似表中图序列对齐距离最大者;如果大于图序列近似表中图序列对齐距离最大者,则停止后续访问,输出图序列对应的图序列近似表;如果小于或等于图序列近似表中图序列对齐距离最大者,则将各图序列加入图序列近似表中,访问图序列排序表中下一个图序列,直至图结构近似距离评估总和大于图序列近似表中图结构近似距离最大者为止;每个图序列近似表包括k3个图序列,后续将图序列近似表中的图序列称为近似图序列。
6.一种基于子树倒排索引的病历图序列检索系统,其特征在于,所述系统包括:
三层倒排索引构建模块,用于基于子树分解算法构建病历...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。