互斥数据处理方法及系统、计算机可读存储介质技术方案

技术编号:22783823 阅读:75 留言:0更新日期:2019-12-11 04:14
本申请提供一种互斥数据处理方法及系统、计算机可读存储介质,方法包括:获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据;根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。本方案能够基于数据的互斥属性快速准确地进行互斥剔除处理,提高信息聚合的效率和准确性。

Mutually exclusive data processing method and system, computer readable storage medium

The application provides a mutually exclusive data processing method and system, computer-readable storage medium, the method includes: obtaining mutually exclusive attributes of each data in the candidate data set, the mutually exclusive attributes of the data include mutually exclusive data with one-way mutually exclusive relationship with the data, wherein, the mutually exclusive data representation of the data: when selecting the required data from the mutually exclusive data of the data and the data When the data is reserved, the data is selected as the data to be reserved; according to the mutually exclusive attribute of each data, the data that does not need to be reserved is removed from the data with mutually exclusive relationship in the candidate data set to obtain the target data set. This scheme can eliminate the mutual exclusion quickly and accurately based on the mutual exclusion attribute of data, and improve the efficiency and accuracy of information aggregation.

【技术实现步骤摘要】
互斥数据处理方法及系统、计算机可读存储介质
本申请涉及大数据领域,尤其涉及一种互斥数据处理方法及系统、计算机可读存储介质。
技术介绍
目前,互联网已经成为人们获取信息的重要途径,而互联网上提供的信息服务也越来越多,比如今日头条、UC头条、搜索引擎、各种新闻资讯类客户端。这些服务提供的信息数据来源不一,通常是根据用户的需求,对不同的来源的多条信息进行聚合、汇总、处理后提供给用户,而不同来源的数据,可能存在互斥的数据。随着信息技术的不断发展,用户通常需要面对大量信息,花费大量时间浏览才能捕获有用信息。因此对上述存在互斥关系的每对数据需要通过进行互斥剔除处理,即只筛选出其中一项数据保留至最终的信息结果,实现信息聚合,以保证最终数据的精炼。
技术实现思路
本申请提供一种互斥数据处理方法及系统、计算机可读存储介质,用于高效准确地对存在互斥关系的数据进行筛选。本申请的第一个方面是提供一种互斥数据处理方法,包括:获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据;根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。本申请的第二个方面是提供一种互斥数据处理系统,包括:获取模块,用于获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据;处理模块,用于根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。本申请的第三个方面是提供一种互斥数据处理系统,包括:至少一个处理器和存储器;所述存储器存储计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,以执行如前所述的方法。本申请的第四个方面是提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的方法。本申请提供的互斥数据处理方法及系统、计算机可读存储介质,针对候选数据集中存在互斥关系的数据,根据这些数据的互斥属性进行数据的筛选,其中,数据的互斥属性中定义了该数据能够互斥掉的数据,即本方案为数据添加了互斥属性,基于互斥属性能够从存在互斥关系的数据中确定出需要剔除的数据或者确定出需要保留下来作为最终处理结果的数据。基于本申请提供的方案,当候选数据集中有存在互斥关系的数据时,能够基于这些数据的互斥属性快速准确地进行互斥剔除处理,提高信息聚合的效率和准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1A~图1B为本申请实施例一提供的互斥数据处理方法的流程示意图;图2A~图2C为本申请实施例二提供的互斥数据处理方法的流程示意图;图3A~图3C为有向图的示例图;图4A~图4B为本申请实施例三提供的互斥数据处理系统的结构示意图;图5A~图5B为本申请实施例四提供的互斥数据处理系统的结构示意图;图6为本申请实施例五提供的互斥数据处理方法的流程示意图;图7为本申请实施例六提供的互斥数据处理系统的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。实际应用中,导致互斥关系产生的因素有很多。举例来说,不同来源的数据可能存在重复,数据重复即为导致互斥关系产生的一种因素,需要说明的是,数据重复导致数据之间存在互斥关系,是一种比较常见的场景,但是本申请中的互斥关系并不局限于数据重复这一种情形,也可能是其他冲突因素导致数据之间存在互斥关系。对于存在互斥关系的数据,一种互斥剔除处理策略是采用贪心算法:根据一定的选取策略,例如,根据数据与用户需求的匹配度,选取某项数据,后续,通过判断选取的每项数据是否可以放入目标数据集,获得最终的目标数据集。具体的,在将某项数据加入目标数据集时,会先判断该数据与当前目标数据集中的数据是否存在重复,如果存在重复则不向目标数据集加入该项数据。上述方案能够在一定程度上实现信息聚合,但是在从存在互斥关系的数据中选取数据时,选取的策略仅取决于数据加入目标数据集的先后,因此最终获得的目标数据集的准确程度也仅取决于数据加入的先后排序,无法保证信息聚合的准确性和可靠性。图1A为本申请实施例一提供的一种互斥数据处理方法的流程示意图;参考图1A可知,本实施例提供了一种互斥数据处理方法,用于快速可靠地完成信息聚合。具体的,该互斥数据处理方法包括:101、获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据;102、根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。实际应用中,该互斥数据处理方法的执行主体可以为互斥数据处理系统。在实际应用中,该互斥数据处理系统可以通过软件代码实现,该互斥数据处理系统也可以为存储有相关执行代码的介质,例如,U盘等;或者,该互斥数据处理系统还可以为集成或安装有相关执行代码的实体装置,例如,芯片、智能终端、计算机、服务器以及各种电子设备。其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据。所述单向互斥关系指的是两项数据之间存在互斥关系,并且这种互斥关系具备单向属性。举例来说,假设对数据A来说,数据B为与数据A存在单向互斥关系的数据之一,则表明数据B与数据A存在互斥关系,并且,数据A能够互斥掉数据B,但数据B不能互斥掉数据A,即当需要从数据A和数据B中选择一项数据作为保留下来的结果时,则选取数据A保留而剔除数据B。结合实际场景进行示例:本申请的候选数据集可以结合实际场景获得,本申请并未对候选数据集的获取方式进行限制。例如,在搜索场景,可以基于用户提供的关键词从数据源中搜索出匹配的数据作为候选数据集。实际应用中,对于信息服务提供者(比如搜索引擎服务),在给用户提供信息数据时,往往会先从具有互斥关系的数据中选择需要剔除的数据,例如剔除掉重复、冗余的信息,以在向用户提供最终的目标数据集时,目标数据集中不会同时出现存在互斥关系的两条数据。具体的,存在单向互斥关系的两项数据的优先级不同,这里的优先级决定了当这两项数据同时出现在候选数据集时,需要剔除哪项数据保留哪项数据。这里的优先级可以基于需求设定,本申请的方案中,为数据源中的数据增添本文档来自技高网...

【技术保护点】
1.一种互斥数据处理方法,其特征在于,包括:/n获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据;/n根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。/n

【技术特征摘要】
1.一种互斥数据处理方法,其特征在于,包括:
获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据;
根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。


2.根据权利要求1所述的方法,其特征在于,所述根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集,包括:
建立包含多个节点的有向图,所述多个节点与所述各数据一一对应;
针对所述候选数据集中每个数据,根据所述数据的互斥属性,建立所述数据对应节点指向所述数据的互斥数据对应节点的有向边;
将当前有向图中,入度为零的第一节点对应的数据添加至目标数据集;
删除有向图中的所述第一节点、所述第一节点指向的所有下一节点、以及与被删除的节点相关的有向边,并返回执行所述将当前有向图中,入度为零的第一节点对应的数据添加至目标数据集的步骤,直至当前有向图中不存在节点。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若当前有向图中不存在入度为零的第一节点,且存在形成环路的多个第二节点,则从多个第二节点中选取一个节点;
删除指向该节点的所有有向边或者所有上一节点,以使该节点成为入度为零的第一节点,并返回执行所述将当前有向图中,入度为零的第一节点对应的数据添加至目标数据集的步骤。


4.根据权利要求2所述的方法,其特征在于,所述获取候选数据集中各数据的互斥属性之前,还包括:
按照预设的选取策略,从数据源中选取与所述选取策略匹配的数据,以获得所述候选数据集;
所述从多个第二节点中选取一个节点,包括:
从多个第二节点中选取与所述选取策略的匹配度最高的节点。


5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
对目标数据集中的数据进行排序。


6.一种互斥数据处理系统,其特征在于,包括:
获取模块,用于获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据...

【专利技术属性】
技术研发人员:李前令邵明昊
申请(专利权)人:广东神马搜索科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1