基于特征工程的相似移动应用计算方法及装置制造方法及图纸

技术编号:23161793 阅读:21 留言:0更新日期:2020-01-21 22:00
本发明专利技术公开了一种基于特征工程的相似移动应用计算方法及装置,所述方法包括:将移动应用的数据集进行离散化;根据预先设置的特征从离散化的数据集中抽取有效特征,通过信息熵的方式从离散化的数据集中过滤无效特征;计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集;从所述相似候选集中获取相似移动应用。

Similar mobile application computing method and device based on Feature Engineering

【技术实现步骤摘要】
基于特征工程的相似移动应用计算方法及装置
本专利技术涉及计算机
,尤其涉及一种基于特征工程的相似移动应用计算方法及装置。
技术介绍
近年来,随着智能手机终端的普及和移动互联网的迅猛发展,移动应用彻底改变了信息传播的生态格局,已代替网站/网页成为网民获取信息或服务的主要方式。同时,移动应用也成为色情、赌博等负面信息传播的温床。当业务用户发现某一个传播负面信息的移动应用时,如何快速获得与该移动应用相关或相似的其他移动应用成为一个重要的需求。
技术实现思路
本专利技术实施例提供一种基于特征工程的相似移动应用计算方法及装置,用以解决现有技术中的上述问题。本专利技术实施例提供一种基于特征工程的相似移动应用计算方法,包括:将移动应用的数据集进行离散化;根据预先设置的特征从离散化的数据集中抽取有效特征,通过信息熵的方式从离散化的数据集中过滤无效特征;计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集;从所述相似候选集中获取相似移动应用。本专利技术实施例还提供一种基于特征工程的相似移动应用计算装置,包括:数据预处理模块,用于将移动应用的数据集进行离散化;抽取过滤模块,用于根据预先设置的特征从离散化的数据集中抽取有效特征,并通过信息熵的方式过滤无效特征;加权求和模块,用于计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集;结果获取模块,用于从所述相似候选集中获取相似移动应用。本专利技术实施例还提供一种基于特征工程的相似移动应用计算装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于特征工程的相似移动应用计算方法的步骤。本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述基于特征工程的相似移动应用计算方法的步骤。采用本专利技术实施例,通过筛选出移动应用所关联的属性来对当前移动应用进行相似移动应用的计算,能够快速获得与该移动应用相关或相似的其他移动应用。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例的基于特征工程的相似移动应用计算方法的流程图;图2是本专利技术装置实施例一的基于特征工程的相似移动应用计算装置的示意图;图3是本专利技术装置实施例的二的基于特征工程的相似移动应用计算装置的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。根据本专利技术实施例,提供了一种基于特征工程的相似移动应用计算方法,通过筛选出移动应用所关联的属性来对当前移动应用进行相似移动应用的计算。特征工程的好处在于可以大规模减少相似移动应用的计算开销。我们采用K最近邻算法(K-NearestNeighbor,KNN)找到与当前移动应用相关的候选移动应用集合。图1是本专利技术实施例的基于特征工程的相似移动应用计算方法的流程图,如图1所示,根据本专利技术实施例的基于特征工程的相似移动应用计算方法具体包括:步骤101,将移动应用的数据集进行离散化;具体地,由于集成后的移动应用数据源离标准的数据处理格式有一定差异,因此将每个移动应用属性看成一个对应的特征,并将特征所具有的属性值进行离散化,例如:开发者所对应的开发人员集合需要进行细分。步骤102,根据预先设置的特征从离散化的数据集中抽取有效特征,通过信息熵的方式从离散化的数据集中过滤无效特征;预先设置的特征具体包括以下至少之一:移动应用在子类别中榜单的排名、移动应用类型、移动应用开发者、移动应用运营公司、移动应用所定义的功能点。由于真实数据中存在大量属性值缺失情况。因此,一方面通过预先设置的特征的方式来抽取有效的特征。另一方面,需要通过信息熵的方式来判别过滤一些属性值无效的特征。例如,所有特征均为一个取值时,信息熵为0。步骤103,计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集;在步骤103中,计算两个移动应用的每一组有效特征的相似度,并进行加权求和具体包括:步骤1,计算两个移动应用的每一组有效特征的相似度,如果两个移动应用在子类别中榜单的排名的相似度高于排名阈值,则其相似度权值为第一分值;如果两个移动应用类型的相似度高于类型阈值,则其相似度权值为第二分值;如果两个移动应用开发者之间的相似度高于开发者阈值,则其相似度权值为第二分值,如果两个移动应用运营公司的相似度高于运营公司阈值,则其相似度权值为第三分值;如果两个移动应用所定义的功能点之间的相似度高于功能点阈值,则其相似度权值为第三分值;如果两个移动应用的更多开发者之间的相似度高于更多开发者阈值,则其相似度权值为第四分值,其中,第一分值、第二分值、第三分值、第四分值为分值范围,且第一分值>第二分值>第三分值>第四分值;如表1所示。表1专家给出的属性特征以及相应的优先级步骤2,将两个移动应用的每一组有效特征的相似度权值进行求和,得到两个移动应用之间的最终相似度值。优选地,在步骤103中,通过K最近邻算法计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集。也就是说,可以利用K最近邻算法来计算当前移动应用的相似候选集。优选地,可以通过点积或者JaccardSimilarity相似度计算两个移动应用每一维属性值的相似度,并进行加权求和。步骤104,从所述相似候选集中获取相似移动应用。具体包括:根据加权求和结果对所述相似候选集中的移动应用进行降序排序,并将前K个移动应用作为计算获得的相似移动应用。其中,优选地,K可以取10或者20。装置实施例一根据本专利技术实施例,提供了一种基于特征工程的相似移动应用计算装置,图2是本专利技术装置实施例一的基于特征工程的相似移动应用计算装置的示意图,如图2所示,具体包括:数据预处理模块20,用于将移动应用的数据集进行离散化;抽取过滤模块22,用于根据预先设置的特征从离散化的数据集中抽取有效特征,并通过信息熵的方式过滤无效特征;预先设置的特征具体包括一下至少之一:移动应用在子类别中榜单的排名、移动应用本文档来自技高网...

【技术保护点】
1.一种基于特征工程的相似移动应用计算方法,其特征在于,包括:/n将移动应用的数据集进行离散化;/n根据预先设置的特征从离散化的数据集中抽取有效特征,通过信息熵的方式从离散化的数据集中过滤无效特征;/n计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集;/n从所述相似候选集中获取相似移动应用。/n

【技术特征摘要】
1.一种基于特征工程的相似移动应用计算方法,其特征在于,包括:
将移动应用的数据集进行离散化;
根据预先设置的特征从离散化的数据集中抽取有效特征,通过信息熵的方式从离散化的数据集中过滤无效特征;
计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集;
从所述相似候选集中获取相似移动应用。


2.如权利要去1所述的方法,其特征在于,从所述相似候选集中获取相似移动应用具体包括:
根据加权求和结果对所述相似候选集中的移动应用进行降序排序,并将前N个移动应用作为计算获得的相似移动应用。


3.如权利要求1所述的方法,其特征在于,预先设置的特征具体包括以下至少之一:移动应用在子类别中榜单的排名、移动应用类型、移动应用开发者、移动应用运营公司、移动应用所定义的功能点。


4.如权利要求1所述的方法,其特征在于,计算两个移动应用的每一组有效特征的相似度,并进行加权求和具体包括:
计算两个移动应用的每一组有效特征的相似度,如果两个移动应用在子类别中榜单的排名的相似度高于排名阈值,则其相似度权值为第一分值;如果两个移动应用类型的相似度高于类型阈值,则其相似度权值为第二分值;如果两个移动应用开发者之间的相似度高于开发者阈值,则其相似度权值为第二分值,如果两个移动应用运营公司的相似度高于运营公司阈值,则其相似度权值为第三分值;如果两个移动应用所定义的功能点之间的相似度高于功能点阈值,则其相似度权值为第三分值;如果两个移动应用的更多开发者之间的相似度高于更多开发者阈值,则其相似度权值为第四分值,其中,第一分值、第二分值、第三分值、第四分值为分值范围,且第一分值>第二分值>第三分值>第四分值;
将两个移动应用的每一组有效特征的相似度权值进行求和,得到两个移动应用之间的最终相似度值。


5.如权利要求1所述的方法,其特征在于,计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集具体包括:
通过K最近邻算法计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集。


6.一种基于特征工程的相似移动应用计算装置,其特征在于,包括:
数据预处理模块,用于将移动应用的数据集进行离散化;<...

【专利技术属性】
技术研发人员:钮艳赵淳璐项菲赵晓航
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1