本发明专利技术公开了一种基于随机算法的分布式实体匹配方法,包括如下步骤:数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;签名生成步骤:根据实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;匹配对生成步骤:在分布式节点内对签名重排并分组,从组中提取匹配对;相似度计算步骤:通过计算海明距离得到匹配对的相似度。本发明专利技术提出了用于减少冗余相似度计算的解决方案,可以有效提升分布式环境下对半结构化和非结构化数据的实体匹配效率,在准确率得到保证的同时,处理速度明显高过目前较先进的实体匹配方法。
【技术实现步骤摘要】
本专利技术属于数据集成与管理
,尤其涉及一种基于随机算法的分布式实体匹配方法。
技术介绍
实体匹配技术(也称实体解析、数据关联与重复检测等)旨在从目标数据集中识别出描述相同实体或对象的记录,并通过对描述相同实体的多条记录进行筛选融合,实现对数据的集成与清洗。例如,在一个顾客对顾客(C2C)的在线市场中,人们可以轻松地开办在线商店并且列出任何他们想卖的东西,所以同一件商品很可能被多个卖家以不同价格、品质以及不同的商品描述来进行贩卖,这导致买家在选择时感到困惑。实体匹配的目的是通过评估各个商品记录的相似度,找出哪些实体信息对应同种商品。经过对这些实体信息中的脏数据进行清洗,构成一个相似商品信息的集合,供顾客挑选。在当前的互联网环境中,网络数据和用户生成内容(UserGeneratedContent)的飞速增长改变了我们过去收集和管理信息的方式。数量庞大的网络用户群体作为数据的主要生产者,其极高的参与度使得数据生成过程变得更为简单,但松散的管理模式却导致数据变得更难管理。网络数据与用户生成内容(UGC)具有数据总量大、数据结构复杂、数据质量差等多个特点。很多研究工作尝试过分别解决上述的问题:1)采用文本相似度来衡量非结构化数据(如在线文档)的相似性。它为半结构化和非结构化数据提供了一种标准的度量方法;2)分词技术被用来减少拼写错误和人为错误对于数据质量的负面影响。这已经成为数据清理中一项重要的步骤,而且提高了实体匹配的精确度;3)数据分块策略根据相似度将数据划分成多个部分。因为只需要比较相同分块中的数据,所以这些分块策略能有效地减少比较代价。分布式环境相比于集中式环境,大幅度增加了运算的并行度与系统的可拓展性,为大数据量的实体匹配提供了可能。借助如MapReduce的分布式运算模型,可以将传统方法运用到分布式环境下,因此那些集中环境下的研究成果可以为分布式环境下的实体匹配提供解决思路。另一方面,一些传统实体匹配方法移植到分布式环境时,通常无法充分利用分布式的并发优势,出现了负载均衡和网络传输开销等问题,性能较差。为了克服上述现有技术的缺陷,本专利技术在分布式系统环境下,为半结构化和非结构化数据提出一种随机匹配方法,并希望继承一些先前的研究成果,减少计算开销和网络传输开销。
技术实现思路
本专利技术提出了一种基于随机算法的分布式实体匹配方法,包括如下步骤:数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;签名生成步骤:根据所述实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对所述签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;匹配对生成步骤:在分布式节点内对所述签名重排并分组,从组中提取匹配对;相似度计算步骤:通过计算海明距离得到所述匹配对的相似度。本专利技术的基于随机算法的分布式实体匹配方法中,在所述数据预处理步骤包括:对于所述原始数据中进行实体分词,构造出包含所有记录中所出现的词的词典,最后根据每条所述记录中各个词的出现频率将所述记录转化为统一的向量。本专利技术的基于随机算法的分布式实体匹配方法中,使用Part-Of-SpeechTagger对所述原始数据进行实体分词。本专利技术的基于随机算法的分布式实体匹配方法中,在所述生成签名步骤中,使用位置敏感哈希函数生成数量小于所述向量维度的随机向量。本专利技术的基于随机算法的分布式实体匹配方法中,在所述生成签名步骤中,利用可保留向量特征的位置敏感哈希函数计算所述随机向量的签名,在保留空间向量特征的同时减少网络传输开销;所述位置敏感哈希函数以如下公式表示:hr(u)=1r.u≥00r.u<0hr(u)=1r.u≥00r.u<0.]]>本专利技术的基于随机算法的分布式实体匹配方法中,在所述匹配对生成步骤中,在所述分布式节点内按随机变换序号对所述签名分组,并在组内进行排序,选择每个签名和同组中与其相邻的多个签名生成匹配对。本专利技术的基于随机算法的分布式实体匹配方法中,在所述相似度计算步骤中,设定阈值并计算海明距离衡量匹配对的相似度,若相似度低于阈值,则认定所述匹配对相似并输出对应的实体编号及相似度。本专利技术的基于随机算法的分布式实体匹配方法中,在所述相似度计算步骤之后进一步包括所述近实时查询步骤:以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据所述集合中的文件路径得到所述外存空间中的源数据文件。本专利技术的基于随机算法的分布式实体匹配方法中,所述分布式实体匹配方法是基于分布式环境,所述分布式环境包括MapReduce计算框架、Hadoop分布式系统以及Hadoop分布式文件系统。本专利技术基于MapReduce框架在Hadoop上完成了算法实现,使用Hadoop的分布式文件系统(HDFS)实现数据的存储和读写。Hadoop具有良好的横向扩展能力,通过并行调度实现任务对大数据的高效处理能力。本专利技术的有益效果在于:本专利技术在所述生成签名步骤中将高维向量转换成了多个低维签名,有效地减少了网络传输开销。本专利技术在所述匹配对生成步骤中,在shuffle阶段对所有签名进行分组重排,各组包含所有实体同一次变换后的签名,再将所有组均匀传输给各reduce节点进行相似度计算,各节点接收到的签名数量相近,解决了分布式系统中的负载均衡问题。本专利技术中只需要执行一个MapReduce任务,相比其他采用多MapReduce任务的实体匹配方法,减轻了因额外任务调度产生的计算代价,带来性能提升。通过实验,本专利技术与其他分布式实体匹配方法相比,在保证了匹配准确率的同时,性能上有很大的优势,在不同大小的数据集上都展现出了较好的兼容性。附图说明图1是本专利技术基于随机算法的分布式实体匹配方法的流程图。图2是具体实施中的MapReduce示例图。具体实施方式结合以下具体实施例和附图,对本专利技术作进一步的详细说明。实施本专利技术的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本专利技术没有特别限制内容。本专利技术基于随机算法的分布式实体匹配方法支持对对海量实体的匹配处理。本专利技术在开源分布式平台上制定有效的数据存储策略、利用高效的数据索引技术支持时间敏感的查询处理,并设计了基于时间敏感的数据存储策略,为查询的快速文件定位提供保障,实现了基于倒排技术的索引,为查询提供高效的文件过滤。如图1所示,本专利技术基于随机算法的分布式实体匹配方法,其特征在于,包括如下步骤:S1数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;S2签名生成步骤:根据实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;S3匹配对生成步骤:在分布式节点内对签名重排并分组,从组中提取匹配对;S4相似度计算步骤:通过计算海明距离得到匹配对的相似度。之后进一步包括近实时查询步骤:以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据集合中的文件路径得到外存空间中的源数据文件。本专利技术的基于随机算法的分布式实体匹配方法中,实体表示数据集中描述客观物体的记录,实体对表示一对物体记录;键值对为Ma本文档来自技高网...
【技术保护点】
一种基于随机算法的分布式实体匹配方法,其特征在于,包括如下步骤:数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;签名生成步骤:根据所述实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对所述签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;匹配对生成步骤:在分布式节点内对所述签名重排并分组,从组中提取匹配对;相似度计算步骤:通过计算海明距离得到所述匹配对的相似度。
【技术特征摘要】
1.一种基于随机算法的分布式实体匹配方法,其特征在于,包括如下步骤:数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;签名生成步骤:根据所述实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对所述签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;匹配对生成步骤:在分布式节点内对所述签名重排并分组,从组中提取匹配对;相似度计算步骤:通过计算海明距离得到所述匹配对的相似度。2.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述数据预处理步骤包括:对于所述原始数据中进行实体分词,构造出包含所有记录中所出现的词的词典,最后根据每条所述记录中各个词的出现频率将所述记录转化为统一的向量。3.如权利要求2所述的基于随机算法的分布式实体匹配方法,其特征在于,使用Part-of-SpeechTagger对所述原始数据进行实体分词。4.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述生成签名步骤中,使用位置敏感哈希函数生成数量小于所述向量维度的随机向量。5.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述生成签名步骤中,利用可保留向量特征的位置敏感哈希函数计算所述随机向量的签名,所述位置敏感哈希函数以...
【专利技术属性】
技术研发人员:张蓉,晁平复,高竹,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。