群体识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:26791242 阅读:17 留言:0更新日期:2020-12-22 17:06
本申请公开了一种群体识别方法、装置及计算机可读存储介质,属于信息处理技术领域。所述方法包括:基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;获取通过二分类模型确定的频繁项集中每个参考元素对应的辅助概率,辅助概率为参考元素是目标元素的概率,目标元素用于指示目标群体中的个体;将频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为频繁项集对应的目标概率,目标概率为频繁项集是目标项集的概率,目标项集用于指示目标群体;根据各频繁项集对应的目标概率,在多个频繁项集中确定目标项集;根据目标项集确定目标群体。本申请解决了对于项集的挖掘针对性较低的问题,本申请用于识别目标群体。

【技术实现步骤摘要】
群体识别方法、装置及计算机可读存储介质
本申请涉及信息
,特别涉及一种群体识别方法、装置及计算机可读存储介质。
技术介绍
随着数据规模的扩大以及数据处理需求的日益增长,从海量的数据中挖掘出有潜在价值的信息对于数据处理变得越来越重要。相关技术中,在进行数据挖掘时,通常通过构建频繁模式树(FrequentPatterntree,FP-tree)的方式挖掘出候选项集中的频繁项集。其中,项集指若干个元素(也可称为项)的集合,频繁项集指支持度大于或等于支持度阈值(英文:min_sup)的项集,支持度指某个项集在所有候选项集中出现的频率。挖掘出的频繁项集仅能够表示该项集中的项出现的概率较大,在不同的数据处理需求中该频繁项集起到的作用相差较大,因此目前对于项集的挖掘针对性较低。
技术实现思路
本申请提供了一种群体识别方法、装置及计算机可读存储介质,可以解决对于项集的挖掘针对性较低的问题。所述技术方案如下:一方面,提供了一种群体识别方法,所述方法包括:基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;获取通过二分类模型确定的所述频繁项集中每个所述参考元素对应的辅助概率,所述辅助概率为所述参考元素是目标元素的概率,所述目标元素用于指示目标群体中的个体;将所述频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为所述频繁项集对应的目标概率,所述目标概率为所述频繁项集是目标项集的概率,所述目标项集用于指示目标群体;根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集;根据所述目标项集确定目标群体。可选地,所述根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集,包括:根据各频繁项集对应的目标概率的大小,确定一个或多个潜在项集;在所述一个或多个潜在项集中确定所述目标项集。可选地,在所述一个或多个潜在项集中确定所述目标项集,包括:确定所述潜在项集的多个过滤参数值的加权平均值,所述潜在项集的过滤参数值为:所述潜在项集的支持度、所述潜在项集包括的目标元素的数量或所述潜在项集包括的参考元素中目标元素的数量占比;将所述一个或多个潜在项集中多个过滤参数值的加权平均值大于过滤阈值的潜在项集,确定为所述目标项集。可选地,在所述一个或多个潜在项集中确定所述目标项集,包括:根据所述潜在项集的特性确定所述目标项集,所述潜在项集的特性包括:所述潜在项集包括的参考元素的属性以及所述潜在项集包括的参考元素与目标元素的关系中的一种或多种。可选地,在所述基于多个候选项集确定多个频繁项集之前,所述方法还包括:基于时空数据构建所述多个候选项集。另一方面,提供了一种群体识别装置,所述群体识别装置包括:第一确定模块,用于基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;获取模块,用于获取通过二分类模型确定的所述频繁项集中每个所述参考元素对应的辅助概率,所述辅助概率为所述参考元素是目标元素的概率,所述目标元素用于指示目标群体中的个体;第二确定模块,用于将所述频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为所述频繁项集对应的目标概率,所述目标概率为所述频繁项集是目标项集的概率,所述目标项集用于指示目标群体;第三确定模块,用于根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集;第四确定模块,用于根据所述目标项集确定目标群体。可选地,第三确定模块包括:第一确定子模块,用于根据各频繁项集对应的目标概率的大小,确定一个或多个潜在项集;第二确定子模块,用于在所述一个或多个潜在项集中确定所述目标项集。可选地,所述第一确定子模块还用于:确定所述潜在项集的多个过滤参数值的加权平均值,所述潜在项集的过滤参数值为:所述潜在项集的支持度、所述潜在项集包括的目标元素的数量或所述潜在项集包括的参考元素中目标元素的数量占比;将所述一个或多个潜在项集中多个过滤参数值的加权平均值大于过滤阈值的潜在项集,确定为所述目标项集。可选地,所述第一确定子模块还用于:根据所述潜在项集的特性确定所述目标项集,所述潜在项集的特性包括:所述潜在项集包括的参考元素的属性以及所述潜在项集包括的参考元素与目标元素的关系中的一种或多种。可选地,所述群体识别装置还包括:构建模块,用于基于时空数据构建所述多个候选项集。再一方面,提供了一种群体识别装置,所述群体识别装置包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令在被所述处理器执行时实现上述的群体识别方法。又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令在被执行时实现上述的群体识别方法。本申请提供的技术方案带来的有益效果至少包括:本申请提供的技术方案,可以基于候选项集挖掘出频繁项集,并在频繁项集中识别出目标项集进而确定目标群体,因此对于项集的挖掘有较高的针对性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种群体识别方法的流程图;图2是本申请实施例提供的另一种群体识别方法的流程图;图3是本申请实施例提供的一种群体识别装置的结构示意图;图4是本申请实施例提供的一种第三确定模块的结构示意图;图5是本申请实施例提供的另一种群体识别装置的结构示意图;图6是本申请实施例提供的终端的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。图1是本申请实施例提供的一种群体识别方法的流程图。可选地,该群体识别方法可以用于群体识别装置,该装置可以为终端、服务器或其他电子设备,本申请实施例对此不做限定。如图1所示,该群体识别方法包括:步骤101、基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素。步骤102、获取通过二分类模型确定的频繁项集中每个参考元素对应的辅助概率,辅助概率为参考元素是目标元素的概率,目标元素用于指示目标群体中的个体。步骤103、将频繁项集中各个参考元素的辅助概率的加权平均值,确定为频繁项集对应的目标概率,目标概率为频繁项集是目标项集的概率,目标项集用于指示目标群体。步骤104、根据各频繁项集对应的目标概率,在多个频繁项集中确定目标项集。步骤105、将目标项集确定为目标群体。综上所述,本申请实施例提供的群体识别方法中,可以基于候选项集挖掘出频繁项集,并在频繁项集中识别出目标项集进而确定目标群体,因此对于项集的挖掘有较高的本文档来自技高网...

【技术保护点】
1.一种群体识别方法,其特征在于,所述方法包括:/n基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;/n获取通过二分类模型确定的所述频繁项集中每个所述参考元素对应的辅助概率,所述辅助概率为所述参考元素是目标元素的概率,所述目标元素用于指示目标群体中的个体;/n将所述频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为所述频繁项集对应的目标概率,所述目标概率为所述频繁项集是目标项集的概率,所述目标项集用于指示目标群体;/n根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集;/n根据所述目标项集确定目标群体。/n

【技术特征摘要】
1.一种群体识别方法,其特征在于,所述方法包括:
基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;
获取通过二分类模型确定的所述频繁项集中每个所述参考元素对应的辅助概率,所述辅助概率为所述参考元素是目标元素的概率,所述目标元素用于指示目标群体中的个体;
将所述频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为所述频繁项集对应的目标概率,所述目标概率为所述频繁项集是目标项集的概率,所述目标项集用于指示目标群体;
根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集;
根据所述目标项集确定目标群体。


2.根据权利要求1所述的方法,其特征在于,所述根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集,包括:
根据各频繁项集对应的目标概率的大小,确定一个或多个潜在项集;
在所述一个或多个潜在项集中确定所述目标项集。


3.根据权利要求2所述的方法,其特征在于,在所述一个或多个潜在项集中确定所述目标项集,包括:
确定所述潜在项集的多个过滤参数值的加权平均值,所述潜在项集的过滤参数值为:所述潜在项集的支持度、所述潜在项集包括的目标元素的数量或所述潜在项集包括的参考元素中目标元素的数量占比;
将所述一个或多个潜在项集中多个过滤参数值的加权平均值大于过滤阈值的潜在项集,确定为所述目标项集。


4.根据权利要求2所述的方法,其特征在于,在所述一个或多个潜在项集中确定所述目标项集,包括:
根据所述潜在项集的特性确定所述目标项集,所述潜在项集的特性包括:所述潜在项集包括的参考元素的属性以及所述潜在项集包括的参考元素与目标元素的关系中的一种或多种。


5.根据权利要求1所述的方法,其特征在于,在所述基于多个候选项集确定多个频繁项集之前,所述方法还包括:
基于时空数据构建所述多个候选项集。


6.一种群体识别装置,其特征在于,所述群体识别装置包括:
第一确定模块,用于基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;
获取模块,用于获取通过二分类模型确定的所述频繁项集...

【专利技术属性】
技术研发人员:周武俞颖晔
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1