本发明专利技术提供了一种基于权值的结构化搜索系统,包括结构树模块,用于对数据存储模块中的每条非结构化数据进行分词,将其拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个文本结构树;搜索树模块,用于接收客户端的搜索表达式,对搜索表达式进行分词,将其拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个搜索树;分析模块,用于将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;显示模块,用于将匹配值以分值从大到小进行排序,将搜索结果显示到客户端。本发明专利技术还公开了一种基于权值的结构化搜索系统的搜索方法。本发明专利技术能够对自由文本等非结构化数据进行精确有效的搜索。
【技术实现步骤摘要】
本专利技术涉及医疗信息领域,更具体地,涉及一种基于权值的结构化搜索系统及其搜索方法。
技术介绍
随着信息技术的发展和医疗信息化的建设,现在医院及各种医疗机构早已实施了各类信息化系统软件,如“HIS(医院信息管理系统)”、“EMR(电子病历系统)”、“PACS(医学影像存档及传输系统)”、“RIS(影像信息管理系统)”等。随着信息化系统遍布各个医疗领域,多年以来,生成并积攒了大批数据,各系统产生的数据主要有如下两类:1结构化数据:如患者姓名、性别等人口学信息。信息系统通常将该类每项信息都单独保存在数据库不同的字段中,可以方便的获取查询等。2非结构化数据:如患者的主诉、病史、影像学报告等。该部分通常为描述性语言,大段的自由语言文本。由于该类信息为医生录入或是患者口述,所以语言极不规范,信息系统通常将其作为一个整体保存。对于上述结构化数据的搜索早已比较成熟,信息系统可以很简单采用结构化查询语言(SQL)等数据库工具来进行搜索,但是对于像患者的影像学表现及诊断等非结构化数据,虽然其中包含极其有价值的信息,却并没有特别有效的方法来精确的搜索并应用,现有的软件对于非结构化数据的搜索方法主要有如下两种:1利用数据库工具按“关键字”进行搜索:如用关系数据库的结构化查询语言(SQL)来进行匹配查询(like),即查找所有包含该“关键字”的数据,但是存在很多弊端,无法得到准确可信的搜索结果,例如:1.1无法处理同义词:比如要查询包含“第5胸椎”的描述,在实际应用中,医生会使用“胸椎5”、“胸5椎体”、“T5”、“T5椎”等语言,均为同一意思。1.2只能定义简单关键词,无法进行多词精确查询:例如要查询所有“第5胸椎骨折”的患者,由于汉语语言的复杂性,实际描述会诸如“胸椎5可见骨折”、“T5发现骨折”、“骨折出现在第5胸椎上”等等,所以搜索结果的有效性极低。1.3无法对范围值进行查询:例如搜索“肿瘤直径介于2-3CM之间”等。2自然语言搜索引擎:类似百度、谷歌等搜索引擎。相对于上面的方法,该方法虽然有一定的改善,比如对于同义词的处理,但是由于医疗领域的特殊性,仍然无法得到精确的搜索结果,主要缺陷有三点:2.1关键词没有逻辑相关性,故无法进行多词精确查询:例如要查询“第5胸椎骨折”,实际上系统会按“第5胸椎”、“骨折”两个词或是“第5”、“胸椎”、“骨折”三个词来进行搜索,由于只是按关键词分别搜索,所以会找出很多不符合的内容,例如如下描述“第5胸椎增生,第7胸椎骨折”,而很多真正符合的内容而由于关键字不匹配而无法搜索到,例如如下描述“第3-6胸椎骨折”(第3-6胸椎实际包含第3、第4、第5、第6胸椎);2.2同样无法对于范围值进行查询:例如搜索“肿瘤直径介于2-3CM之间”等;2.3搜索结果相关性没有量化指标:搜索完通常会列出大量的搜索结果,但是该结果与实际用户相要的结果是否完全相符?如果不相符,匹配度多少?没有一个量化指标,需要用户一一进行筛选判断。因此以上无论何种方法,都无法精确有效的进行搜索。随着医疗信息系统的普及及深入应用,越来越多的非结构化数据正在产生,其中蕴含着大量极其有价值的信息,因此如何帮助医生及其他用户方便准确的搜索到感兴趣数据也日益迫切。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种基于权值的结构化搜索系统及其搜索方法,能够解决现有技术中存在的搜索手段的局限性,由于搜索结果有效性低而无法得到精确的搜索结果的问题。为达到上述目的,本专利技术的技术方案是这样实现的:一方面,本专利技术提供了一种基于权值的结构化搜索系统,包括数据存储模块、结构树模块、搜索树模块、分析模块和显示模块,其中,数据存储模块,与结构树模块相连,用于存储非结构化数据;结构树模块,分别与数据存储模块和分析模块相连,用于对每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;搜索树模块,与分析模块相连,用于接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;分析模块,分别与搜索树模块和结构树模块相连,用于将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;显示模块,与分析模块相连,用于将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。优选地,该系统还包括:同义词转换模块,分别与结构树模块和搜索树模块相连,用于对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。优选地,该系统还包括:范围值识别模块,分别与结构树模块和搜索树模块相连,用于识别关键词词汇的范围值。优选地,搜索树模块还包括运算符处理单元,用于对搜索表达式中的逻辑运算符进行识别与处理。优选地,对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。优选地,显示模块还包括星级显示单元,用于根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。另一方面,本专利技术还提供了一种基于权值的结构化搜索系统的搜索方法,包括:结构树模块对数据存储模块中的每条非结构化数据进行分词处理,将非结构化数据拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;搜索树模块接收来自于客户端的搜索表达式,对搜索表达式进行分词处理,将搜索表达式拆分为单独的关键词词汇,对每个关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值;显示模块将匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。优选地,在建立文本结构树或搜索树之前,该方法还包括:同义词转换模块对关键词词汇进行同义词转换,根据同义词字典进行同义词归一。优选地,在建立文本结构树或搜索树之前,该方法还包括:范围值识别模块识别关键词词汇的范围值。优选地,在建立搜索树之前,该方法还包括:运算符处理单元对搜索表达式中的逻辑运算符进行识别与处理。优选地,对每个关键词词汇定义权值,是根据非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。优选地,该方法还包括:星级显示单元根据匹配值来确定星的个数,并将星的个数以及匹配值同时显示到客户端。本专利技术的技术效果:1.由于本专利技术中设置了结构树模块和搜索树模块,将非结构化的自由文本以及搜索表达式进行分词,并进行结构化重构,形成文本结构树和搜索树,定义每一个关键词词汇及分支的权值,分析模块将搜索树与所有的文本结构树进行匹配,根据权值计算得出匹配值,以使得搜索结果准确可信;2.由于本专利技术设置了同义词转换模块和范围值识别模块,对关键词词汇进行了同义词转换,使得同义词归一,并可以识别关键词词汇的范围值,能够解决现有技术中存在的无法处理同义词以及范围值的问题,使搜索结果更加精确,不会落下有价值的信息;3.基于自然语言的搜索条件,由于本专利技术设置了运算符处理单元,对搜索表达式中的逻辑运算符进行识别与处理,使得搜索结果更加全面,并方便了用户操作;4.由于本专利技术还设置了星级显示单元,搜索结果本文档来自技高网...
【技术保护点】
一种基于权值的结构化搜索系统,其特征在于,包括数据存储模块、结构树模块、搜索树模块、分析模块和显示模块,其中,所述数据存储模块,与所述结构树模块相连,用于存储非结构化数据;所述结构树模块,分别与所述数据存储模块和所述分析模块相连,用于对每条所述非结构化数据进行分词处理,将所述非结构化数据拆分为单独的关键词词汇,对每个所述关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;所述搜索树模块,与所述分析模块相连,用于接收来自于客户端的搜索表达式,对所述搜索表达式进行分词处理,将所述搜索表达式拆分为单独的关键词词汇,对每个所述关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;所述分析模块,分别与所述搜索树模块和所述结构树模块相连,用于将所述搜索树与所有的所述文本结构树进行匹配,根据所述权值计算得出匹配值;所述显示模块,与所述分析模块相连,用于将所述匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。
【技术特征摘要】
1.一种基于权值的结构化搜索系统,其特征在于,包括数据存储模块、结构树模块、搜索树模块、分析模块和显示模块,其中,所述数据存储模块,与所述结构树模块相连,用于存储非结构化数据;所述结构树模块,分别与所述数据存储模块和所述分析模块相连,用于对每条所述非结构化数据进行分词处理,将所述非结构化数据拆分为单独的关键词词汇,对每个所述关键词词汇定义权值,并根据语法上下文建立一个对应于该非结构化数据的文本结构树;所述搜索树模块,与所述分析模块相连,用于接收来自于客户端的搜索表达式,对所述搜索表达式进行分词处理,将所述搜索表达式拆分为单独的关键词词汇,对每个所述关键词词汇定义权值,并根据语法上下文建立一个对应于该搜索表达式的搜索树;所述分析模块,分别与所述搜索树模块和所述结构树模块相连,用于将所述搜索树与所有的所述文本结构树进行匹配,根据所述权值计算得出匹配值;所述显示模块,与所述分析模块相连,用于将所述匹配值以分值从大到小进行排序,去除所有零分项,并将搜索结果显示到客户端。2.根据权利要求1所述的基于权值的结构化搜索系统,其特征在于,该系统还包括同义词转换模块,分别与所述结构树模块和所述搜索树模块相连,用于对所述关键词词汇进行同义词转换,根据同义词字典进行同义词归一。3.根据权利要求1所述的基于权值的结构化搜索系统,其特征在于,该系统还包括范围值识别模块,分别与所述结构树模块和所述搜索树模块相连,用于识别所述关键词词汇的范围值。4.根据权利要求1所述的基于权值的结构化搜索系统,其特征在于,所述搜索树模块还包括运算符处理单元,用于对所述搜索表达式中的逻辑运算符进行识别与处理。5.根据权利要求1所述的基于权值的结构化搜索系统,其特征在于,所述对每个所述关键词词汇定义权值,是根据所述非结构化数据文本的基础知识的相关性和特定特征的重要性来确定。6.根据权利要求1所述的基于权值的结构化搜索系统,其特征在于,所述...
【专利技术属性】
技术研发人员:贺长征,
申请(专利权)人:北京赛迈特锐医疗科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。