本发明专利技术提供了一种应用分类模型构建方法、应用分类方法及系统,本发明专利技术根据应用的权限列表和主题信息,具体考虑应用产生的行为来反映应用的分类,通过一次和二次匹配模型,能够有效降低人工干预和人力成本,提高平均分类精度。
【技术实现步骤摘要】
本专利技术涉及一种应用分类模型构建方法及系统。
技术介绍
随着手机等移动终端性能的提高和可下载的应用软件规模的极速增长,用户在选 择应用时将面对更大的噪声,如何有效的对大规模应用进行分类从而提高用户的体验成为 一个手机市场重要的技术手段。目前软件在应用市场进行推广,搜索,下载中,对于新应用 的分类使用人工逐个审核的方式对应用归类,这样的方法人力成本高,而且平均精度不高, 难以维护。
技术实现思路
本专利技术的目的在于提供一种应用分类模型构建方法及系统,能够有效降低人力成 本,提高平均分类精度。 为解决上述问题,本专利技术提供一种应用分类模型构建方法,包括: 获取不同应用提供商的多数据源的应用基础分类数据作为训练数据; 获取训练数据中每个应用的权限列表; 根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用 的多个第一分类; 获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征 选择; 根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。 进一步的,在上述方法中,获取不同应用提供商的多数据源的应用基础分类数据 作为训练数据,包括: 获取不同应用提供商的多数据源的每个应用的分类向量; 统计每个应用的分类向量中每个分类的出现频次,由每个应用的分类向量中出现频次 最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将其从训练数据集 中删除。 进一步的,在上述方法中,获取训练数据中每个应用的权限列表中,每个应用的权 限列表为根据该应用的权限生成的字典表向量。 进一步的,在上述方法中,根据训练数据中所有应用的权限列表构建一次匹配模 型,包括: 采用meanshift算法,并根据训练数据中归属于同一分类的应用权限向量计算每个分 类的密度中心点。 进一步的,在上述方法中,根据训练数据中所有应用的主题信息进行特征选择,包 括: 对每个应用的主题信息进行分词,去除带有噪声信息的词; 从所有应用的主题信息中剩余的未去除的词中选择特征词; 根据选择的特征词生成多个分类,每个分类包括多个特征词。 进一步的,在上述方法中,对每个应用的主题信息进行分词,去除带有噪声信息的 词,包括: 对于中文的主题信息,采用中科院ICTCLAS算法来分词并去除带有噪声信息的词; 对于英文的主题信息,采用wordnet算法来分词并去除带有噪声信息的词。 进一步的,在上述方法中,从所有应用的主题信息中剩余的未去除的词中选择特 征词,包括: 采用CHI检验算法设定最小阀值,从所有应用的主题信息中剩余的未去除的词中选择 最小阀值以上的词作为特征词。 进一步的,在上述方法中,根据选择的特征构建二次匹配模型,包括:采用特征词 维度平衡和贝叶斯分类器原理构建二次匹配模型。 进一步的,在上述方法中,采用特征词维度平衡和贝叶斯分类器原理构建二次匹 配模型,包括: 采用特征词维度平衡原理,将特征词的数量在同一量级的分类分别生成对应的贝叶斯 分类器,所有的贝叶斯分类器组合成二次匹配模型,每个贝叶斯分类器对应一个第二分类。 进一步的,在上述方法中,根据选择的特征构建二次匹配模型之后,还包括: 使用测试数据测试一次、二次匹配模型的准确率,并根据一次、二次匹配模型的准确 率来分别对一次、二次匹配模型的模型参数进行调整,得到调整参数后的一次、二次匹配模 型。 根据本专利技术的另一面还提供一种应用分类方法,采用上述应用分类模型构建方法 构建的一次、二次匹配模型,所述应用分类方法,包括: 获取待分类应用的权限列表; 采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第 一分类, 若只属于某个第一分类,则输出所述待分类应用属于某个第一分类的结果; 若不只属于某个第一分类,则获取所述待分类应用的主题信息,采用二次匹配模型, 并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,若属于某个第二分 类,则输出所述待分类应用属于某个第二分类的结果;若不属于某个第二分类,则进行人工 匹配并输出待分类应用的分类结果。 进一步的,在上述方法中,获取所述待分类应用的主题信息,采用二次匹配模型, 并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,包括: 获取所述待分类应用的主题信息; 对所述待分类应用的主题信息进行分词,去除带有噪声信息的词; 采用二次匹配模型,并根据待分类应用的主题信息中剩余的未去除的词判断待分类应 用是否属于某个第二分类。 进一步的,在上述方法中,采用一次匹配模型,并根据待分类应用的权限列表判断 待分类应用是否只属于某个第一分类,包括: 计算待分类应用的权限列表中的权限向量与每个第一分类的密度中心点的边界距离, 当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离大 于等于预设阀值时,则该待分类应用属于该个第一分类; 当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离小 于预设阀值时,或者当待分类应用的权限列表中的权限向量与某两个或两个以上第一分类 的密度中心点的边界距离大于等于预设阀值时,则所述待分类应用不只属于某个第一分 类。 根据本专利技术的另一面,还提供一种应用分类模型构建系统,包括: 第一装置,用于获取不同应用提供商的多数据源的应用基础分类数据作为训练数据; 第二装置,用于获取训练数据中每个应用的权限列表; 第三装置,用于根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹 配模型包括应用的多个第一分类; 第四装置,用于获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主 题信息进行特征选择; 第五装置,用于根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多 个第二分类。 进一步的,在上述系统中,所述第一装置,用于获取不同应用提供商的多数据源的 每个应用的分类向量,统计每个应用的分类向量中每个分类的出现频次,由每个应用的分 类向量中出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时 将其从训练数据集中删除。 进一步的,在上述系统中,所述第二装置,用于每个应用的权限列表为根据该应用 的权限生成的字典表向量。 进一步的,在上述系统中,所述第三装置采用meanshift算法,并根据训练数据中 归属于同一分类的应用权限向量计算每个分类的密度中心点。 进一步的,在上述系统中,所述第四装置,包括: 第四一模块,用于对每个应用的主题信息进行分词,去除带有噪声信息的词; 第四二模块,用于从所有应用的主题信息中剩余的未去除的词中选择特征词; 第四三模块,用于根据选择的特征词生成多个分类,每个分类包括多个特征词。 进一步的,在上述系统中,对于中文的主题信息,所述第四一模块采用中科院 ICTCLAS算法来分词并去除带有噪声信息的词; 对于英文的主题信息,所述第四一模块采用wordnet算法来分词并去除带有噪声信息 的词。 进一步的,在上述系统中,所述第四二模块采用CHI检验算法设定最小阀值,从所 有应用的主题信息中剩余的未去除的词中选择最小阀值以上的词作为特征词。 进一步的,在上述系统中,所述第五装置,用于对选择的特征词进行维度平衡,用 特征词维当前第1页1 2 3&n本文档来自技高网...
【技术保护点】
一种应用分类模型构建方法,其特征在于,包括:获取不同应用提供商的多数据源的应用基础分类数据作为训练数据;获取训练数据中每个应用的权限列表;根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用的多个第一分类;获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征选择;根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。
【技术特征摘要】
【专利技术属性】
技术研发人员:马松玉,
申请(专利权)人:上海卓悠网络科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。