相似数据排重方法技术

技术编号：7620630 阅读：445 留言：0更新日期：2012-07-29 20:41

本发明专利技术提供了一种相似数据排重方法，包括以下步骤：将所获取的相似数据输入至服务器；提取相似数据的特征向量，对特征向量的每个信息进行预处理，得到每个信息的字符型索引数据；对每个索引数据进行编码转换，生成每个信息的数值型哈希数据；以及根据信息的权重，逐一判断特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据，并将结果返回给用户。通过本发明专利技术的方法可以快速的对数据不同但反应信息相同的相似数据进行排重处理，且其正确率高，稳定性好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据信息处理
，特别涉及的是一种能够对大规模相似数据信息进行排重处理的方法。
技术介绍
随着信息技术的不断发展，各类信息大量涌现，实际应用中，对大量数据进行排重的要求越来越多。例如在搜索引擎系统中，需要判断哪些数据信息已经收集在系统中。由于互联网的数据信息众多，须要有专门的方法对新发现的数据信息进行判断，检查其是否已经收录于信息库中，如果该数据信息已经存在，只需要进行更新信息来源属性；如果该数据信息不存在，则需要进行数据信息的收集以及标识信息来源属性的新建操作。又如在电信业务方面，运营商在向用户提供数据类业务服务的过程中需要对该用户所使用业务的信息进行准确记录，以作为计费依据，如果不对该用户所使用的大量的各种电信业务的记录数据进行排重工作，很容易造成重复收费的情况；再如文献数据库的管理及维护工作中，也需要判断哪些相同或相似的文献已经收集在文献数据库中，如果该文献数据已经存在，只需要进行更新该文献的来源属性；如果该文献数据不存在，则需要进行文献数据的收集以及标识信息来源属性的新建操作。然而，目前大多数排重方法可以实现完全相同数据的快速排重处理，对于如何解决数据不相同、反映信息相同的排重即相似数据排重仍没有有效的实施方法，所以，对相似数据的排重成为了一个新的方向。为克服上述缺陷，本专利技术的创作者经过长时间的研究和实践获得了本创作。
技术实现思路
本专利技术的主要目的在于克服现有技术的不足，提供了一种，实现了对相似数据的快速、准确的排重处理。为达到上述目的，本专利技术采用的技术方案在于，提供一种，其包括以下步骤将所获取的相似数据输入至服务器；...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：杨健，
申请(专利权)人：北京世纪读秀技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人