The application provides a mutually exclusive data processing method and system, computer-readable storage medium, the method includes: obtaining mutually exclusive attributes of each data in the candidate data set, the mutually exclusive attributes of the data include mutually exclusive data with one-way mutually exclusive relationship with the data, wherein, the mutually exclusive data representation of the data: when selecting the required data from the mutually exclusive data of the data and the data When the data is reserved, the data is selected as the data to be reserved; according to the mutually exclusive attribute of each data, the data that does not need to be reserved is removed from the data with mutually exclusive relationship in the candidate data set to obtain the target data set. This scheme can eliminate the mutual exclusion quickly and accurately based on the mutual exclusion attribute of data, and improve the efficiency and accuracy of information aggregation.
【技术实现步骤摘要】
互斥数据处理方法及系统、计算机可读存储介质
本申请涉及大数据领域,尤其涉及一种互斥数据处理方法及系统、计算机可读存储介质。
技术介绍
目前,互联网已经成为人们获取信息的重要途径,而互联网上提供的信息服务也越来越多,比如今日头条、UC头条、搜索引擎、各种新闻资讯类客户端。这些服务提供的信息数据来源不一,通常是根据用户的需求,对不同的来源的多条信息进行聚合、汇总、处理后提供给用户,而不同来源的数据,可能存在互斥的数据。随着信息技术的不断发展,用户通常需要面对大量信息,花费大量时间浏览才能捕获有用信息。因此对上述存在互斥关系的每对数据需要通过进行互斥剔除处理,即只筛选出其中一项数据保留至最终的信息结果,实现信息聚合,以保证最终数据的精炼。
技术实现思路
本申请提供一种互斥数据处理方法及系统、计算机可读存储介质,用于高效准确地对存在互斥关系的数据进行筛选。本申请的第一个方面是提供一种互斥数据处理方法,包括:获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据;根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。本申请的第二个方面是提供一种互斥数据处理系统,包括:获取模块,用于获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥 ...
【技术保护点】
1.一种互斥数据处理方法,其特征在于,包括:/n获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据;/n根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。/n
【技术特征摘要】
1.一种互斥数据处理方法,其特征在于,包括:
获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据中选取需保留的数据时,则选取所述数据作为需保留的数据;
根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集。
2.根据权利要求1所述的方法,其特征在于,所述根据各数据的互斥属性,从所述候选数据集中存在互斥关系的数据中剔除不需保留的数据,以获得目标数据集,包括:
建立包含多个节点的有向图,所述多个节点与所述各数据一一对应;
针对所述候选数据集中每个数据,根据所述数据的互斥属性,建立所述数据对应节点指向所述数据的互斥数据对应节点的有向边;
将当前有向图中,入度为零的第一节点对应的数据添加至目标数据集;
删除有向图中的所述第一节点、所述第一节点指向的所有下一节点、以及与被删除的节点相关的有向边,并返回执行所述将当前有向图中,入度为零的第一节点对应的数据添加至目标数据集的步骤,直至当前有向图中不存在节点。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若当前有向图中不存在入度为零的第一节点,且存在形成环路的多个第二节点,则从多个第二节点中选取一个节点;
删除指向该节点的所有有向边或者所有上一节点,以使该节点成为入度为零的第一节点,并返回执行所述将当前有向图中,入度为零的第一节点对应的数据添加至目标数据集的步骤。
4.根据权利要求2所述的方法,其特征在于,所述获取候选数据集中各数据的互斥属性之前,还包括:
按照预设的选取策略,从数据源中选取与所述选取策略匹配的数据,以获得所述候选数据集;
所述从多个第二节点中选取一个节点,包括:
从多个第二节点中选取与所述选取策略的匹配度最高的节点。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
对目标数据集中的数据进行排序。
6.一种互斥数据处理系统,其特征在于,包括:
获取模块,用于获取候选数据集中各数据的互斥属性,所述数据的互斥属性包括与该数据存在单向互斥关系的互斥数据,其中,所述数据的互斥数据表征:当从所述数据和所述数据的互斥数据...
【专利技术属性】
技术研发人员:李前令,邵明昊,
申请(专利权)人:广东神马搜索科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。