本发明专利技术提供了一种相似数据排重方法,包括以下步骤:将所获取的相似数据输入至服务器;提取相似数据的特征向量,对特征向量的每个信息进行预处理,得到每个信息的字符型索引数据;对每个索引数据进行编码转换,生成每个信息的数值型哈希数据;以及根据信息的权重,逐一判断特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果返回给用户。通过本发明专利技术的方法可以快速的对数据不同但反应信息相同的相似数据进行排重处理,且其正确率高,稳定性好。
【技术实现步骤摘要】
本专利技术涉及数据信息处理
,特别涉及的是一种能够对大规模相似数据信息进行排重处理的方法。
技术介绍
随着信息技术的不断发展,各类信息大量涌现,实际应用中,对大量数据进行排重的要求越来越多。例如在搜索引擎系统中,需要判断哪些数据信息已经收集在系统中。由于互联网的数据信息众多,须要有专门的方法对新发现的数据信息进行判断,检查其是否已经收录于信息库中,如果该数据信息已经存在,只需要进行更新信息来源属性;如果该数据信息不存在,则需要进行数据信息的收集以及标识信息来源属性的新建操作。又如在电信业务方面,运营商在向用户提供数据类业务服务的过程中需要对该用户所使用业务的信息进行准确记录,以作为计费依据,如果不对该用户所使用的大量的各种电信业务的记录数据进行排重工作,很容易造成重复收费的情况;再如文献数据库的管理及维护工作中,也需要判断哪些相同或相似的文献已经收集在文献数据库中,如果该文献数据已经存在,只需要进行更新该文献的来源属性;如果该文献数据不存在,则需要进行文献数据的收集以及标识信息来源属性的新建操作。然而,目前大多数排重方法可以实现完全相同数据的快速排重处理,对于如何解决数据不相同、反映信息相同的排重即相似数据排重仍没有有效的实施方法,所以,对相似数据的排重成为了一个新的方向。为克服上述缺陷,本专利技术的创作者经过长时间的研究和实践获得了本创作。
技术实现思路
本专利技术的主要目的在于克服现有技术的不足,提供了一种,实现了对相似数据的快速、准确的排重处理。为达到上述目的,本专利技术采用的技术方案在于,提供一种,其包括以下步骤将所获取的相似数据输入至服务器;提取所述的相似数据的特征向量,对所述的特征向量的每个信息进行预处理,得到每个所述的信息的字符型索引数据;对每个所述的索引数据进行编码转换,生成每个所述的信息的数值型哈希数据; 以及根据所述的信息的权重,逐一判断所述的特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果返回给用户。实施时,若所获取的相似数据是多个相似数据,则还包括步骤将多个所述的特征向量的哈希数据按值聚类,每个类包含多个所述的特征向量的同一值的信息。3实施时,对所述的信息的预处理包括以下步骤获取服务器中与所述的相似数据结构一致的信息字典;过滤所述的信息中干扰排重结果的噪声词;将完成噪声词过滤的每一所述的信息进行拆分,得到多个拆分数据;对照所述的信息字典分别对所述的拆分数据进行检验及修正处理;以及将上述处理后的拆分数据按照预定的字符结构重新格式化,得到与数据库服务器中的标准数据信息的结构一致的待检验数据。其中,对所述的相似数据的拆分方式包括按字符进行拆分、按间隔符及字符个数进行拆分或者以所述的信息字典的字符为标准进行拆分。实施时,对所述的索引数据进行编码转换采用MD5哈希函数或SHA-I哈希函数实现。其中,所述的相似数据是指需要参与排重处理,由若干属性组成,能反映完整信息的数据实例。特征向量是指相似数据的固有属性。假设数据源为数据库中的表,则属性对应表中字段。本专利技术的有益效果通过本专利技术的方法可以快速的对相似数据进行排重处理,经过相似数据的预处理,使得相似数据的存储形式得到统一规范,提高了排重的正确性;同时通过对相似数据的编码变换,将相似数据转换为数值型哈希数据,压缩了数据空间,提高了系统响应的速度。附图说明图I为本专利技术的的第一实施例;图2为本专利技术的的第二实施例;图3为本专利技术的的数据预处理过程的流程图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。本专利技术的相似数据的排重是指对那些数据不同,但反应的信息相同的数据进行排重;本专利技术的相似数据可以是单个相似数据,也可以是多个相似数据。请参阅图1,为本专利技术的第一实施例,即所获取的相似数据为单个相似数据的情况,本专利技术提供的一种,包括以下步骤步骤I :将所获取的相似数据输入至服务器;步骤2 :提取所述的相似数据的特征向量,对所述的特征向量的每个信息进行预处理,得到每个所述的信息的字符型索引数据;步骤3 :对每个所述的索引数据进行编码转换,使用预定字符替代所述的索引数据中的相似字符,并将编码转换后的索引数据生成每个所述的信息的数值型哈希数据;以及步骤4:根据所述的信息的权重,逐一判断所述的特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果返回给用户。其中,所述的相似数据是指需要参与排重处理,由若干属性信息组成,并能反映完整信息的数据实例。其中,所述的特征向量是指相似数据的固有属性,即可以用于进行相似数据排重处理的字段;例如,若数据源为数据库中的表,则固有属性对应表中字段;对于相似数据是图书或文献来说,其固有属性包括名称、责任者、出版发行机构、出版发行年份等以上字段的任意组合,但不以此为限,用来唯一标识该相似数据。所述的特征向量根据数据源的不同,其属性的种类和数量会有所不同。请参阅图2,为本专利技术的第二实施例,即所获取的相似数据为多个相似数据的情况,本专利技术提供的一种,包括以下步骤步骤a :将所获取的相似数据输入至服务器;步骤b :提取所述的相似数据的特征向量,对所述的特征向量的每个信息进行预处理,得到每个所述的信息的字符型索引数据;步骤c :对每个所述的索引数据进行编码转换,使用预定字符替代所述的索引数据中的相似字符,并将编码转换后的索引数据生成每个所述的信息的数值型哈希数据;以及步骤d:将多个所述的特征向量的哈希数据按属性值聚类,每个类包含多个所述的特征向量的同一属性值的信息以提高排重的速度;以及步骤e :根据每个所述的类的权重判断多个所述的特征向量的信息与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果分别存储于所述的服务器的相同集合和非相同集合两个存储区域,并将所述的相同集合和非相同集合的存储结果返回给用户。其中,所述的相似数据是指需要参与排重处理,由若干属性信息组成,并能反映完整信息的数据实例。其中,所述的特征向量是指相似数据的固有属性,即可以用于进行相似数据排重处理的字段;例如,若数据源为数据库中的表,则固有属性对应表中字段;对于相似数据是图书或文献来说,其固有属性包括名称、责任者、出版发行机构、出版发行年份等以上字段的任意组合,但不以此为限,用来唯一标识该相似数据。所述的特征向量根据数据源的不同,其属性的种类和数量会有所不同。本专利技术的第一实施例或第二实施例在实施时,步骤4及步骤e中的判断过程是根据所述的相似数据的特征向量的每个信息的权重进行判断,首先对权重最大的信息的哈希数据进行判断,若数据库服务器中不存在该哈希数据,则该哈希数据所对应的相似数据为不同的数据,并将该相似数据置于非相同集合;若数据库服务器中存在该哈希数据,则继续判断权重次之的信息的哈希数据,直至该相似数据的所有的信息的哈希数据与所述的数据库服务器中已存在的数据的所有的对应的信息相同,则该相似数据为已存在的数据,并将该相似数据置于相同集合。例如,若相似数据来源于数据库中的某一个表,根据该相似数据的特征向量,生成检验执行标准在判断时,首先对该相似数据的一个属性字段进行判断,如果不同,则判断为非相同,并将该相似数据本文档来自技高网...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:杨健,
申请(专利权)人:北京世纪读秀技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。