本发明专利技术涉及医疗文件数据处理技术领域,且公开了一种利用二进制提取、识别、归类文件的系统,包括数据获取模块、识别模块、提取模块、归类模块和新数据库;所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;所述识别模块用于识别所述获取模块获取二进制数据包的数据信息,该利用二进制提取、识别、归类文件的系统,可以通过获取医疗系统中医疗数据库的二进制数据包,识别、提取和归类医疗文件信息数据,同时可以按照预定的数据结构,对归类的数据信息进行同一数据结构处理,以实现数据信息的统一样式的前端输出,无需通过接口对接,可减少医院数据维护成本。可减少医院数据维护成本。可减少医院数据维护成本。
【技术实现步骤摘要】
一种利用二进制提取、识别、归类文件的系统
[0001]本专利技术涉及医疗文件数据处理
,具体为一种利用二进制提取、识别、归类文件的系统。
技术介绍
[0002]文件归类是信息学和计算机科学中的一个技术路线。其任务是将一个文件分配到一个或者多个类别中。可以是通过人工分类完成,也可以是通过计算机算法实现。通过归类,可以统一数据结构,实现标准化的输出。
[0003]当前有大量医院所使用的医疗信息系统老旧,接口无法得到正常维护,并且有的医院由于更换厂商,会使病例、检查检验等数据的数据结构存在不规范的现象,导致数据显示不统一,会影响数据获取的效果。
技术实现思路
[0004]为实现以上利用二进制提取、识别、归类文件的系统目的,本专利技术通过以下技术方案予以实现:一种利用二进制提取、识别、归类文件的系统,包括数据获取模块、识别模块、提取模块、归类模块和新数据库;
[0005]所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;
[0006]所述识别模块用于识别所述获取模块获取二进制数据包的数据信息;
[0007]所述提取模块用于提取所述识别模块识别的二进制数据包的数据信息;
[0008]所述归类模块用于对所述提取模块提取的数据信息进行归类;
[0009]所述新数据库用于存储经新数据结构处理之后的数据信息。
[0010]一种利用二进制提取、识别、归类文件的方法,具体包括以下步骤:
[0011]S1、利用数据获取模块获取医疗系统内部医疗数据库的二进制数据包;
[0012]S2、利用识别模块和提取模块对获取的所述二进制数据包进行识别,并提取所述二进制数据包中的数据信息;
[0013]S3、利用归类模块对提取的所述数据信息进行归类处理;
[0014]S4、将归类的数据包按照统一数据结构进行储存,建立新数据库。
[0015]进一步的,所述S1中获取所述二进制数据包时,同步获取所述二进制数据包在医疗系统中所属的类目,并生成数据标签。
[0016]进一步的,所述S2中所述数据信息的提取具体为:根据识别的所述二进制数据包,提取所述二进制数据包中的数据信息,并根据所述数据信息中出现的数据词频,提取多个关键词。
[0017]进一步的,所述S3中所述数据信息归类的具体步骤包括:
[0018]S301、利用Sharksearch算法对S2中提取的所述数据信息与所述数据标签进行相关度分析;
[0019]S302、判断所述数据标签与S2中提取的所述数据信息之间的相关程度是否达到设
定的相关率;
[0020]S3021、若所述数据标签与S2中提取的所述数据信息之间的相关程度达到设定的相关率,以所述数据标签建立新的归类分类标签;
[0021]S3022、若所述数据标签与S2中提取的所述数据信息之间的相关程度未达到设定的相关率,重新设定所述数据信息的归类分类标签。
[0022]进一步的,所述S3022中所述数据信息的归类分类标签的重新设定包括:
[0023]S3031、利用Sharksearch算法对S2中提取的所述数据信息与所述关键词进行相关度分析;
[0024]S3032、以每个所述关键词的相关率作为关键词在所述数据信息中的权重;
[0025]S3033、根据每个所述关键词在所述数据信心中的权重和在所述数据信息中出现的词频,计算每个所述关键词的相符值;
[0026]S3033、通过每个所述关键词的相符值之间的对比,以最高的相符值对应的所述关键词建立新的归类分类标签。
[0027]进一步的,所述S4中新数据库的建立具体包括:
[0028]S401、预定数据结构模板;
[0029]S402、将归类之后的数据包按照S401中的所述数据结构模板进行统一处理;
[0030]S403、将处理之后的数据包按照归类分类标签进行存储,从而建立新数据库。
[0031]与现有技术相比,本专利技术具有以下有益效果:
[0032]1、该利用二进制提取、识别、归类文件的系统,可以通过获取医疗系统中医疗数据库的二进制数据包,识别、提取和归类医疗文件信息数据,同时可以按照预定的数据结构,对归类的数据信息进行同一数据结构处理,并存储到数据库中,以实现数据信息的统一样式的前端输出,无需通过接口对接,可减少医院数据维护成本。
[0033]2、该利用二进制提取、识别、归类文件的系统,通过对医疗文件信息数据的识别和提取,可对医疗文件数据进行类别判断修正处理,从而提高文件数据与归类类别的相符度,有利于提高医疗文件信息数据内容获取的精准度。
附图说明
[0034]图1为本专利技术医疗系统数据归类和获取的流程图。
具体实施方式
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]该利用二进制提取、识别、归类文件的系统的实施例如下:
[0037]一种利用二进制提取、识别、归类文件的系统,包括数据获取模块、识别模块、提取模块、归类模块和新数据库;
[0038]所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;
[0039]所述识别模块用于识别所述获取模块获取二进制数据包的数据信息;
[0040]所述提取模块用于提取所述识别模块识别的二进制数据包的数据信息;
[0041]所述归类模块用于对所述提取模块提取的数据信息进行归类;
[0042]请参阅图1,一种利用二进制提取、识别、归类文件的系统,包括以下步骤:
[0043]S1、利用数据获取模块获取医疗系统内部医疗数据库的二进制数据包,在获取所述二进制数据包时,同步获取所述二进制数据包在医疗系统中所属的类目,并生成数据标签;
[0044]S2、利用识别模块和提取模块对获取的所述二进制数据包进行识别,并提取所述二进制数据包中的数据信息,所述数据信息的提取具体为:根据识别的所述二进制数据包,提取所述二进制数据包中的数据信息,并根据所述数据信息中出现的数据词频,提取多个关键词;
[0045]S3、利用归类模块对提取的所述数据信息进行归类处理;
[0046]S301、利用Sharksearch算法对S2中提取的所述数据信息与所述数据标签进行相关度分析;
[0047]S302、判断所述数据标签与S2中提取的所述数据信息之间的相关程度是否达到设定的相关率;
[0048]S3021、若所述数据标签与S2中提取的所述数据信息之间的相关程度达到设定的相关率,以所述数据标签建立新的归类分类标签;
[0049]S3022、若所述数据标签与S2中提取的所述数据信息之间的相关程度未本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种利用二进制提取、识别、归类文件的系统,其特征在于:包括数据获取模块、识别模块、提取模块、归类模块和新数据库;所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;所述识别模块用于识别所述获取模块获取二进制数据包的数据信息;所述提取模块用于提取所述识别模块识别的二进制数据包的数据信息;所述归类模块用于对所述提取模块提取的数据信息进行归类;所述新数据库用于存储经新数据结构处理之后的数据信息。2.一种利用二进制提取、识别、归类文件的方法,应用于权利要求1所述的一种利用二进制提取、识别、归类文件的系统,其特征在于:具体包括以下步骤:S1、利用数据获取模块获取医疗系统内部医疗数据库的二进制数据包;S2、利用识别模块和提取模块对获取的所述二进制数据包进行识别,并提取所述二进制数据包中的数据信息;S3、利用归类模块对提取的所述数据信息进行归类处理;S4、将归类的数据包按照统一数据结构进行储存,建立新数据库。3.根据权利要求2所述的一种利用二进制提取、识别、归类文件的方法,其特征在于:所述S1中获取所述二进制数据包时,同步获取所述二进制数据包在医疗系统中所属的类目,并生成数据标签。4.根据权利要求2所述的一种利用二进制提取、识别、归类文件的方法,其特征在于:所述S2中所述数据信息的提取具体为:根据识别的所述二进制数据包,提取所述二进制数据包中的数据信息,并根据所述数据信息中出现的数据词频,提取多个关键词。5.根据权利要求2所述的一种利用二进制提取、识别、归类文件的方法,其特征...
【专利技术属性】
技术研发人员:ꢀ七四专利代理机构,
申请(专利权)人:朗森特科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。