一种基于随机算法的分布式实体匹配方法组成比例

技术编号：14403871 阅读：88 留言：0更新日期：2017-01-11 15:44

本发明专利技术公开了一种基于随机算法的分布式实体匹配方法，包括如下步骤：数据预处理步骤：对原始数据进行特征抽取，生成实体及其向量；签名生成步骤：根据实体及其向量生成多个随机向量，生成每一个随机向量相应的签名，对签名进行多次随机变换，再将实体编号、变换后签名和变换序号传输到分布式节点内；匹配对生成步骤：在分布式节点内对签名重排并分组，从组中提取匹配对；相似度计算步骤：通过计算海明距离得到匹配对的相似度。本发明专利技术提出了用于减少冗余相似度计算的解决方案，可以有效提升分布式环境下对半结构化和非结构化数据的实体匹配效率，在准确率得到保证的同时，处理速度明显高过目前较先进的实体匹配方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据集成与管理
，尤其涉及一种基于随机算法的分布式实体匹配方法。
技术介绍
实体匹配技术(也称实体解析、数据关联与重复检测等)旨在从目标数据集中识别出描述相同实体或对象的记录，并通过对描述相同实体的多条记录进行筛选融合，实现对数据的集成与清洗。例如，在一个顾客对顾客(C2C)的在线市场中，人们可以轻松地开办在线商店并且列出任何他们想卖的东西，所以同一件商品很可能被多个卖家以不同价格、品质以及不同的商品描述来进行贩卖，这导致买家在选择时感到困惑。实体匹配的目的是通过评估各个商品记录的相似度，找出哪些实体信息对应同种商品。经过对这些实体信息中的脏数据进行清洗，构成一个相似商品信息的集合，供顾客挑选。在当前的互联网环境中，网络数据和用户生成内容(UserGeneratedContent)的飞速增长改变了我们过去收集和管理信息的方式。数量庞大的网络用户群体作为数据的主要生产者，其极高的参与度使得数据生成过程变得更为简单，但松散的管理模式却导致数据变得更难管理。网络数据与用户生成内容(UGC)具有数据总量大、数据结构复杂、数据质量差等多个特点。很多研究工作尝试过分别解决上述的问题：1)采用文本相似度来衡量非结构化数据(如在线文档)的相似性。它为半结构化和非结构化数据提供了一种标准的度量方法；2)分词技术被用来减少拼写错误和人为错误对于数据质量的负面影响。这已经成为数据清理中一项重要的步骤，而且提高了实体匹配的精确度；3)数据分块策略根据相似度将数据划分成多个部分。因为只需要比较相同分块中的数据，所以这些分块策略能有效地减少比较代价。分布式环境相...
一种基于随机算法的分布式实体匹配方法

【技术保护点】
一种基于随机算法的分布式实体匹配方法，其特征在于，包括如下步骤：数据预处理步骤：对原始数据进行特征抽取，生成实体及其向量；签名生成步骤：根据所述实体及其向量生成多个随机向量，生成每一个随机向量相应的签名，对所述签名进行多次随机变换，再将实体编号、变换后签名和变换序号传输到分布式节点内；匹配对生成步骤：在分布式节点内对所述签名重排并分组，从组中提取匹配对；相似度计算步骤：通过计算海明距离得到所述匹配对的相似度。

【技术特征摘要】
1.一种基于随机算法的分布式实体匹配方法，其特征在于，包括如下步骤：数据预处理步骤：对原始数据进行特征抽取，生成实体及其向量；签名生成步骤：根据所述实体及其向量生成多个随机向量，生成每一个随机向量相应的签名，对所述签名进行多次随机变换，再将实体编号、变换后签名和变换序号传输到分布式节点内；匹配对生成步骤：在分布式节点内对所述签名重排并分组，从组中提取匹配对；相似度计算步骤：通过计算海明距离得到所述匹配对的相似度。2.如权利要求1所述的基于随机算法的分布式实体匹配方法，其特征在于，在所述数据预处理步骤包括：对于所述原始数据中进行实体分词，构造出包含所有记录中所出现的词的词典，最后根据每条所述记录中各个词的出现频率将所述记录转化为统一的向量。3.如权利要求2所述的基于随机算法的分布式实体匹配方法，其特征在于，使用Part-of-SpeechTagger对所述原始数据进行实体分词。4.如权利要求1所述的基于随机算法的分布式实体匹配方法，其特征在于，在所述生成签名步骤中，使用位置敏感哈希函数生成数量小于所述向量维度的随机向量。5.如权利要求1所述的基于随机算法的分布式实体匹配方法，其特征在于，在所述生成签名步骤中，利用可保留向量特征的位置敏感哈希函数计算所述随机向量的签名，所述位置敏感哈希函数以...

【专利技术属性】
技术研发人员：张蓉，晁平复，高竹，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人