本发明专利技术涉及一种管理非结构化数据的装置,其包括服务器、数据解析模块、原始数据导入模块、数据库、匹配规则定义模块、分析模块和调整模块,服务器连接用户终端,服务器的数据输出端依次连接数据解析模块和原始数据导入模块,原始数据导入模块通过一对数据输出端口分别连接数据库和匹配规则定义模块,匹配规则定义模块依次连接分析模块和调整模块,分析模块的数据输出端口连接数据库。本发明专利技术能够实时的采集用户的访问数据,通过匹配规则定义模块、分析模块和调整模块能够对每条数据进行扩展,并即使的分类保存到数据库中,从而保证服务器在接受访问时能够快速的调取数据,使得非结构化数据的检索更加快捷、范围更加广泛和准确。
【技术实现步骤摘要】
本专利技术涉及非结构化数据管理领域,具体涉及。
技术介绍
所有信息分为两类:一类信息能够用数据或统一的结构加以表示,成为结构化数据,如数字、符号等;另一类信息无法用数字或统一的结构表示,比如文本、图片、网页、各类报表、图像和音频/视频信息等等。随着网络技术的发展非结构化数据的数量口趋增大。目前,对非结构化数据进行管理,主要使用全文索引技术,具体的:建立倒排索引文件,根据关键字对非结构化数据进行内容检索,再对检索到的内容进行处理。索引是对数据库表中的一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息,大大提高了数据库检索的性能。数据包括两大类:结构化数据和非结构化数据,实际应用中的数据可能混合了结构化和非结构化的数据。对结构化的数据进行检索称之为结构化检索,反之,对非结构化数据进行检索称之为非结构化检索。但是,这种对非结构化数据进行管理的方法,由于每次索引都需要进行全文搜索,且只能对预置的关键字进行搜索,无法根据需要进行扩展以便更准确的查找。可见,现有技术中对非结构化数据库信息进行管理,存在搜索周期长、查找准确度不高、以及扩展性差的问题。
技术实现思路
针对以上问题,本专利技术提供了一种能够实时的采集用户的访问数据并对数据进行分类,将结构化数据直接储存,非结构化数据的检索更加快捷、范围更加广泛、更加准确的管理非结构化数据的装置和方法。本专利技术的技术方案如下:上述的一种管理非结构化数据的装置,包括服务器、数据解析模块、原始数据导入模块、数据库、匹配规则定义模块、分析模块和调整模块,所述服务器连接用户终端,所述服务器的数据输出端依次连接所述数据解析模块和原始数据导入模块,所述原始数据导入模块通过一对数据输出端口分别连接所述数据库和匹配规则定义模块,所述匹配规则定义模块依次连接所述分析模块和调整模块,所述分析模块的数据输出端口连接数据库。—种管理非结构化数据的方法,其具体步骤为:(I)通过服务器对用户终端所产生的数据进行综合采集,得到综合数据;(2)再由服务器将综合数据发送到数据解析模块,数据解析模块对每一条数据进行解析,根据数据类型、数据格式,对无效数据和错误数据进行删除,并将有效数据分为结构化数据和非结构数据,放入原始数据队列,最后将非结构化数据通过原始数据导入模块导入匹配规则定义模块;(3)匹配规则定义模块根据正则表达式建立若干条匹配规则,从非结构化数据中提取含有匹配字段的数据内容,并将含有匹配字段的数据内容送入到分析模块内;(4)分析模块对含有匹配字段的数据内容进行分析,抓取数据内容内的关键字段,分析模块将关键字段进行储存;调整模块接收分析模块发来的数据内容并进行调整后,再由分析模块将调整后的数据内容上传到服务器。所述的一种管理非结构化数据的方法,其中,所述步骤(2)中的结构化数据是通过原始数据导入模块直接导入数据库存储。所述的一种管理非结构化数据的方法,其中,所述步骤(3)中的匹配规则包括对匹配的字段的定义以及匹配的字段对应的格式的定义。所述的一种管理非结构化数据的方法,其中,所述步骤(3)中匹配规则定义模块是利用正则表达式建立匹配规则,并将匹配规则发给分析模块。所述的一种管理非结构化数据的方法,其中,所述步骤(4)中的调整模块用于接收分析模块发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块。所述的一种管理非结构化数据的方法,其中,所述分析模块利用匹配规则定义模块发来的匹配规则,对原始数据导入模块导入的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块,以及根据调整模块发来的调整后的匹配规则对该组非结构化数据进行调整。有益效果:本专利技术管理非结构化数据的装置和方法构思合理,能够实时的采集用户的访问数据,并对数据进行分类,将结构化数据直接储存,非结构化数据通过匹配规则定义模块、分析模块和调整模块能够对每条数据进行扩展,并即使的分类保存到数据库中,从而保证服务器在接受访问时能够快速的调取数据,使得非结构化数据的检索更加快捷、范围更加广泛,同时更加准确。【附图说明】图1为本专利技术管理非结构化数据的装置的结构示意图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术管理非结构化数据的装置,包括服务器1、数据解析模块2、原始数据导入模块3、数据库4、匹配规则定义模块5、分析模块6和调整模块7。该服务器I连接用户终端,从用户终端采集综合类的数据,服务器I数据输出端依次连接数据解析模块2和原始数据导入模块3,通过数据解析模块2对综合类的数据进行分析,从而实现数据类型、数据格式和数据结构的判断,将错误的数据删除,将结构化数据和非结构数据进行分类,并将结构化数据和非结构数据放入原始数据队列,原始数据导入模块3的两个数据输出端口分别连接数据库4和匹配规则定义模块5,从而将结构化数据直接保存,而非结构数据送入到匹配规则定义模块5中,匹配规则定义模块5依次连接分析模块6和调整模块7,通过匹配规则定义模块5筛选出需要的数据,分析模块6对每组数据进行分析,抓取关键字段,而调整模块7对每组数据中的关键字段进行删除、添加等修改,其中分析模块6的数据输出端口连接数据库4,从而合理、简练的管理非结构化数据。该匹配规则定义模块5根据实际需要建立若干条匹配规则,对匹配的字段、及所述匹配的字段对应的格式的定义,可以使用Visual Stud1.NET编写,比如,使用VisualStud1.NET设定匹配规则为:REGEX = Atcachet to login by user: (.*): login (.*) \.FORMAT = username::“$1,,login_result::“$2”其中,“REGEX”为 Visual Stud当前第1页1 2 本文档来自技高网...
【技术保护点】
一种管理非结构化数据的装置,包括服务器、数据解析模块、原始数据导入模块、数据库、匹配规则定义模块、分析模块和调整模块,其特征在于,所述服务器连接用户终端,所述服务器的数据输出端依次连接所述数据解析模块和原始数据导入模块,所述原始数据导入模块通过一对数据输出端口分别连接所述数据库和匹配规则定义模块,所述匹配规则定义模块依次连接所述分析模块和调整模块,所述分析模块的数据输出端口连接数据库。
【技术特征摘要】
【专利技术属性】
技术研发人员:张艳平,付治国,解书华,韩雪峰,
申请(专利权)人:辽宁工程技术大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。