一种数据导入的方法、装置和存储介质制造方法及图纸

技术编号:19778505 阅读:18 留言:0更新日期:2018-12-15 11:22
本发明专利技术实施例提供了一种数据导入的方法、装置和存储介质,所述方法包括:接收待导入的数据,所述待导入的数据包括待导入条目;根据所述待导入条目,获取本地数据库中的候选条目;对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;识别所述属性匹配结果及其置信度,以确定匹配条目;将所述匹配条目导入所述本地数据库,方便了在将外部数据源中的数据导入本地数据库时的处理过程,增加了能够获取确切匹配结果的条目数量并保证了数据之间的匹配性,有利于实现对本地数据库的扩充。

【技术实现步骤摘要】
一种数据导入的方法、装置和存储介质
本专利技术涉及数据处理
,特别是涉及一种数据导入的方法、一种数据导入的装置和一种存储介质。
技术介绍
互联网票务平台集媒体内容、在线购票、用户互动社交、衍生品销售等功能于一体,能够为用户提供一站式的服务。例如,用户可以在该平台上查阅电影信息、购买电影票及文化产品、撰写影评等等。互联网票务平台的数据库中收录有电影或电视剧的大量信息,为了实现对该数据库的扩充,经常需要导入外部数据源,以对数据库中的信息作进一步的完善。以电影影人数据库为例,在扩充该数据库时需要抓取其他网站的电影影人条目,再导入本地的影人数据库中。在导入过程中,需要判断待导入条目是否已经存在于本地数据库中。如果已经存在,则可以将该条目与匹配到的本地条目的属性值进行合并,如果不存在,则可以将该条目作为新增条目加入到本地数据库中。在将待导入条目和本地条目的属性进行合并时,现有技术中主要是针对待导入条目与本地条目之间的各个属性进行简单的语义判断,并产生两种结果,一种是相同,另一种则是不同。只有当各个属性完全相同时,才认为待导入条目与本地条目匹配。但是,在现实的数据中,存在很多缺失值和模糊值,根本无法准确地用相同或不同两种结果来衡量。此外,对于某些脏数据,按照现有技术中的匹配或导入方法也无法解决。例如,在某些数据源中,电影的上映日期条目可能是错误的,但该电影的影片名、导演、简介,以及演员等条目的内容都相同,按照现有技术的处理方式,则无法将上述影片名、导演、简介,以及演员等条目的正确内容导入到本地数据库中。由于存在上述种种无法处理的情况,就会导致能够得到确切匹配结果的条目较少,不利于对本地数据库的扩充。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据导入的方法、一种数据导入的装置和相应的一种存储介质。为了解决上述问题,本专利技术实施例公开了一种数据导入的方法,包括:接收待导入的数据,所述待导入的数据包括待导入条目;根据所述待导入条目,获取本地数据库中的候选条目;对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;识别所述属性匹配结果及其置信度,以确定匹配条目;将所述匹配条目导入所述本地数据库。可选地,所述根据所述待导入条目,获取本地数据库中的候选条目的步骤包括:确定所述待导入条目的多个基本属性;提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目。可选地,所述对所述待导入条目与所述候选条目进行比对,获得比对结果的步骤包括:确定所述候选条目的多个基本属性;逐个比对所述待导入条目和所述候选条目的多个基本属性,生成属性匹配结果及其置信度。可选地,所述属性匹配结果的置信度通过如下方式确定:确定所述属性匹配结果是否冲突;若是,则统计所述基本属性中冲突的属性值的个数,根据所述冲突的属性值的个数确定置信度;若否,则统计所述基本属性中未冲突的属性值的个数,根据所述未冲突的属性值的个数确定置信度。可选地,所述确定所述属性匹配结果是否冲突的步骤包括:若所述待导入条目或所述候选条目之一包含所述基本属性,或者,所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值相同,则确定所述属性匹配结果不冲突;若所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值不同,则确定所述属性匹配结果冲突。可选地,所述识别所述属性匹配结果及其置信度,以确定匹配条目的步骤包括:识别所述属性匹配结果及其置信度是否满足预设规则;若是,则确定所述属性匹配结果对应的待导入条目为匹配条目;若否,则采用预设模型对所述属性匹配结果及其置信度进行识别,获得模型识别结果,根据所述模型识别结果确定匹配条目。可选地,所述获得模型识别结果包括匹配符合结果或匹配存疑结果,所述根据所述模型识别结果确定匹配条目的步骤包括:将所述匹配符合结果对应的待导入条目确定为匹配条目;将所述匹配存疑结果对应的待导入条目存储至存疑数据库。为了解决上述问题,本专利技术实施例公开了一种数据导入的装置,包括:接收模块,用于接收待导入的数据,所述待导入的数据包括待导入条目;获取模块,用于根据所述待导入条目,获取本地数据库中的候选条目;比对模块,用于对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;识别模块,用于识别所述属性匹配结果及其置信度,以确定匹配条目;导入模块,用于将所述匹配条目导入所述本地数据库。可选地,所述获取模块包括:第一基本属性确定子模块,用于确定所述待导入条目的多个基本属性;候选条目提取子模块,用于提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目。可选地,所述比对模块包括:第二基本属性确定子模块,用于确定所述候选条目的多个基本属性;基本属性比对子模块,用于逐个比对所述待导入条目和所述候选条目的多个基本属性,生成属性匹配结果及其置信度。可选地,所述属性匹配结果的置信度通过调用如下模块确定:冲突确定模块,用于确定所述属性匹配结果是否冲突;第一置信度确定模块,用于若是,则统计所述基本属性中冲突的属性值的个数,根据所述冲突的属性值的个数确定置信度;第二置信度确定模块,用于若否,则统计所述基本属性中未冲突的属性值的个数,根据所述未冲突的属性值的个数确定置信度。可选地,所述冲突确定模块包括:第一冲突确定子模块,用于若所述待导入条目或所述候选条目之一包含所述基本属性,或者,所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值相同,则确定所述属性匹配结果不冲突;第二冲突确定子模块,用于若所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值不同,则确定所述属性匹配结果冲突。可选地,所述识别模块包括:预设规则识别子模块,用于识别所述属性匹配结果及其置信度是否满足预设规则;匹配条目确定子模块,用于若是,则确定所述属性匹配结果对应的待导入条目为匹配条目;模型识别子模块,用于若否,则采用预设模型对所述属性匹配结果及其置信度进行识别,获得模型识别结果,根据所述模型识别结果确定匹配条目。可选地,所述获得模型识别结果包括匹配符合结果或匹配存疑结果,所述模型识别子模块包括:匹配条目确定单元,用于将所述匹配符合结果对应的待导入条目确定为匹配条目;待导入条目存储单元,用于将所述匹配存疑结果对应的待导入条目存储至存疑数据库。为了解决上述问题,本专利技术实施例公开了一种数据导入的装置,包括:处理器;以及,存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的数据导入的方法。为了解决上述问题,本专利技术实施例公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据导入的方法。与
技术介绍
相比,本专利技术实施例包括以下优点:本专利技术实施例,通接收包括待导入条目的待导入的数据,可以根据待导入条目获取本地数据库中的候选条目,然后对待导入条目与候选条目进行比对,获得包括属性匹配结果及其置信度的比对结果,从而在对上述属性匹配结果及其置信度进行识别后,可以确定出匹配条目,并将该匹配条目导入本地数据库,方便了在将外部数据源中的数据导入本地数据库时的处理过程,增加了本文档来自技高网
...

【技术保护点】
1.一种数据导入的方法,其特征在于,包括:接收待导入的数据,所述待导入的数据包括待导入条目;根据所述待导入条目,获取本地数据库中的候选条目;对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;识别所述属性匹配结果及其置信度,以确定匹配条目;将所述匹配条目导入所述本地数据库。

【技术特征摘要】
1.一种数据导入的方法,其特征在于,包括:接收待导入的数据,所述待导入的数据包括待导入条目;根据所述待导入条目,获取本地数据库中的候选条目;对所述待导入条目与所述候选条目进行比对,获得比对结果,所述比对结果包括属性匹配结果及其置信度;识别所述属性匹配结果及其置信度,以确定匹配条目;将所述匹配条目导入所述本地数据库。2.根据权利要求1所述的方法,其特征在于,所述根据所述待导入条目,获取本地数据库中的候选条目的步骤包括:确定所述待导入条目的多个基本属性;提取本地数据库中包含所述待导入条目的至少一个基本属性的候选条目。3.根据权利要求2所述的方法,其特征在于,所述对所述待导入条目与所述候选条目进行比对,获得比对结果的步骤包括:确定所述候选条目的多个基本属性;逐个比对所述待导入条目和所述候选条目的多个基本属性,生成属性匹配结果及其置信度。4.根据权利要求3所述的方法,其特征在于,所述属性匹配结果的置信度通过如下方式确定:确定所述属性匹配结果是否冲突;若是,则统计所述基本属性中冲突的属性值的个数,根据所述冲突的属性值的个数确定置信度;若否,则统计所述基本属性中未冲突的属性值的个数,根据所述未冲突的属性值的个数确定置信度。5.根据权利要求4所述的方法,其特征在于,所述确定所述属性匹配结果是否冲突的步骤包括:若所述待导入条目或所述候选条目之一包含所述基本属性,或者,所述待导入条目和所述候选条目均包含所述基本属性且所述基本属性的属性值相同,则确定所述属性匹配结果不冲突;若所述待导入条目和所述候选条目均包含所述基本属性且所述基...

【专利技术属性】
技术研发人员:秦成鹏张蒙
申请(专利权)人:北京猫眼文化传媒有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1