本发明专利技术涉及一种基于用户管理应用行为的应用质量判别方法及系统。该方法包括:1)对用户的应用管理行为进行数据预处理,得到管理行为序列,作为训练集;2)利用得到的管理行为序列,对用户的应用管理行为进行特征抽取;3)利用抽取的行为特征建立多维自变量空间,每一个训练集中的应用被视作该空间当中的一个点,根据此空间进行模型训练,调试出最优的模型参数,得到一个确定的回归模型;4)将每一个待预测的应用的管理行为数据按照步骤1)和步骤2)进行整理,然后输入该回归模型,模型的输出即为对应用质量的判别结果。本发明专利技术能够更为有效地去除无关特征和发挥有关特征的质量表达能力,能够获得更为准确的应用质量评价结果。
【技术实现步骤摘要】
本专利技术是一种基于移动设备用户的应用管理行为抽取行为特征,然后基于该行为特征利用回归算法对缺乏用户评价的应用的质量进行预测的方法及系统。
技术介绍
随着移动设备(智能手机、平板电脑、智能手表等)的发展,移动设备应用程序(即app,简称应用)的种类、数量都呈现了爆发式增长的趋势。如何能够准确的衡量一个应用的质量好坏成为了一个非常重要的问题。这对于用户在下载应用前快速了解应用从而做出更合适的选择、对于开发者更快速地了解自己和竞争对手的应用在市场中的反馈、以及对于应用市场管理人员提供更准确的推荐都有着非常重要的意义。最为直观且准确的评价标准是应用市场上用户对于应用的评价,包括自然语言评价与打分,其中又以打分最为直观有效。但是,目前的移动应用市场上普遍存在着用户不习惯于评价应用、导致应用的用户评价很少的问题。对于这部分应用,其质量很难通过用户评价进行判别。除用户评价这种相对直观、准确的评价方式外,主流应用市场基本以应用的下载总次数或者以下载过该应用的人数来衡量应用的好坏,其基本出发点是通过用户对于应用的选择行为来判断应用质量的好坏。对于上述所提及的评价较少的应用,这成为了唯一的评价指标。但是,仅仅依靠这种简单的指标可能并不能真正准确的反映出应用的质量高低。例如,一些应用下载总量与下载总人数均较高,但是这可能是由于应用在上线期间所做的营销工作成功而导致的,应用本身质量并不高,用户在简单尝试使用之后很大部分会直接将其卸载。同时,<br>也可能存在一类应用,它们的下载量与下载人数虽然不是非常多,但是其用户会对其保持使用,并跟随版本的迭代随时更新,这类应用往往是质量较高的。因此,单纯的通过下载量、下载人数这样简单的指标可能并不能得到准确的评价。该指标基于用户行为的出发点是合理的,但是其存在的一个问题在于浅尝辙止,没有充分挖掘出用户行为中的信息量。例如,如果一个应用的多数用户在下载了该应用后不久就进行了卸载,那么很可能说明该应用质量不高因此大量用户在使用之后选择了放弃;另一方面,如果一个应用存在部分用户在已经卸载了该应用之后又选择了重新安装,那么很有可能说明这个应用质量较好因此用户的确需要它因此重新安装。受此启示,用户对应用的管理行为序列中可能存在很多有价值的特征。如果能够挖掘出有效特征,就可能利用这些特征得出更准确的应用质量评价。现有技术中,授权公告号为CN101404650B的专利“一种细分网络应用服务质量的方法和系统”,根据用户当前使用的应用程序情况,提供一个合适的网络质量标记,实现细分网络应用服务质量。此外,“一种应用程序的质量确定方法和系统”(申请号:201110247330.7)通过获取的应用程序的质量指标的衡量值基于大量移动终端上报的平均值的收敛值,体现了应用程序的通用质量状态,能够反映应用程序的质量。但这些技术都没有有效利用用户对应用的管理行为中的有价值的特征,从而不能得出更准确的应用质量评价。综上所述,需要一种从应用管理行为中抽取行为特征,并利用抽取出的行为特征对用户评价较少的应用的质量进行判断的方法。
技术实现思路
本专利技术的目的是通过用户管理行为中的特征,利用回归算法来判断应用质量的好坏。利用含有较多用户评价的应用,针对这部分应用的管理行为进行回归模型训练,用训练得到的模型对用户评论较少的应用进行质量预测。本专利技术中,用户的应用管理行为数据当中包括三种行为:下载应用、卸载应用、更新应用。行为记录中包含三个域:进行该行为的用户标识、该行为管理的应用的标识(即应用包名)、以及该行为发生的时间。本专利技术的基于用户管理应用行为的应用质量判别方法,包含四个主要步骤:(1)数据预处理;(2)行为特征抽取;(3)模型训练;(4)利用特征进行应用质量判别。(1)数据预处理:首先根据阈值、统计分析等方法筛选出可靠的应用进入训练集。然后,对与训练集中应用相关的用户应用管理行为进行如下数据预处理:以“D”表示下载应用行为、“U”表示卸载应用行为、“P”表示更新应用行为。将每个用户与每个应用之间的所有管理行为排序,按时间先后顺序得到一个管理行为序列。例如,序列:DPPU该序列表示该用户先对应用进行了一次卸载,然后更新了两次,最后卸载了该应用。此外,在上述原始序列的头部添加标识“S”表示序列开始,在尾部添加标识“E”表示序列结束,得到最终的序列:SDPPUE为保证方法尽可能准确,需要进一步对序列数据进行筛选。最终根据筛选之后的管理行为序列构成模型的训练集。本方法的行为特征抽取工作将基于该训练集进行。(2)行为特征抽取:每个应用的特征包括以下两项:该应用拥有的管理行为序列数、管理行为序列的平均长度。除此两项之外,应用的特征还可以包括:管理行为序列中至多连续若干步(包括S和E在内)考虑时间间隔长短的连续管理行为。对于每一种特征,抽取得到该应用中该种特征的个数,最后得到平均每一个管理行为序列的该种特征个数,即为此种特征的值(例如:某应用共有100个管理序列,其一个特征的。出现个数为200,则最终该特征的值为200/100=2)。特征总数为N。(3)模型训练:行为特征抽取完成后,利用N个特征建立一个N+1维自变量空间。每一个训练集中的应用被视作空间当中的一个点,每个自变量维度的值即为该维度对应的特征的值,因变量的值为该应用的用户评分线性规约至[0,1]区间后的值(0为最低、1为最高)。根据此空间,用多折训练的方法对模型进行训练,调试出最优的模型参数,最终得到一个确定的回归模型。(4)利用特征进行应用质量判别:利用训练得到的回归模型,将每一个待预测的应用的管理行为数据按照上述步骤(1)、(2)的方式进行整理,然后输入模型,模型的输出即为对应用质量的判别结果。本专利技术的基于用户管理应用行为的应用质量判别系统,其包括:数据预处理器,负责对用户的应用管理行为进行数据预处理,将每个用户与每个应用之间的所有管理行为按照时间先后顺序进行排序,得到管理行为序列,作为训练集;行为特征抽取器,负责利用得到的管理行为序列,对用户的应用管理行为进行特征抽取;训练器,负责利用抽取的行为特征建立多维自变量空间,每一个训练集中的应用被视作该空间当中的一个点,每个自变量维度的值即为该维度对应的特征的值;根据此空间进行模型训练,调试出最优的模型参数,最终得到一个确定的回归模型;预测器,负责通过数据预处理器和行为特征抽取器抽取其特征,然后将得到的特征输入训练好的回归模型,模型的输出即为对应用质量的判别结果。本专利技术从应用管理行为本文档来自技高网...
【技术保护点】
一种基于用户管理应用行为的应用质量判别方法,其特征在于,包括如下步骤:1)对用户的应用管理行为进行数据预处理,将每个用户与每个应用之间的所有管理行为按照时间先后顺序进行排序,得到管理行为序列,作为训练集;2)利用得到的管理行为序列,对用户的应用管理行为进行特征抽取;3)利用抽取的行为特征建立多维自变量空间,每一个训练集中的应用被视作该空间当中的一个点,每个自变量维度的值即为该维度对应的特征的值;根据此空间进行模型训练,调试出最优的模型参数,最终得到一个确定的回归模型;4)利用训练得到的回归模型,将每一个待预测的应用的管理行为数据按照步骤1)和步骤2)进行整理,然后输入该回归模型,模型的输出即为对应用质量的判别结果。
【技术特征摘要】
1.一种基于用户管理应用行为的应用质量判别方法,其特征在于,包括如下步骤:
1)对用户的应用管理行为进行数据预处理,将每个用户与每个应用之间的所有管理行为
按照时间先后顺序进行排序,得到管理行为序列,作为训练集;
2)利用得到的管理行为序列,对用户的应用管理行为进行特征抽取;
3)利用抽取的行为特征建立多维自变量空间,每一个训练集中的应用被视作该空间当中
的一个点,每个自变量维度的值即为该维度对应的特征的值;根据此空间进行模型训
练,调试出最优的模型参数,最终得到一个确定的回归模型;
4)利用训练得到的回归模型,将每一个待预测的应用的管理行为数据按照步骤1)和步
骤2)进行整理,然后输入该回归模型,模型的输出即为对应用质量的判别结果。
2.如权利要求1所述的方法,其特征在于,步骤1)所述用户的应用管理行为包括三种:下
载应用、卸载应用、更新应用;行为记录中包含三个域:进行该行为的用户标识、该行为
管理的应用的标识、该行为发生的时间。
3.如权利要求2所述的方法,其特征在于,步骤1)所述管理行为序列以“D”表示下载应
用行为,以“U”表示卸载应用行为,以“P”表示更新应用行为,并在序列的头部添加
标识“S”表示序列开始,在尾部添加标识“E”表示序列结束。
4.如权利要求3所述的方法,其特征在于,步骤1)还对管理行为序列进行筛选,过滤掉用
户评价不明确的应用,只保留用户展现出明显喜好倾向的应用。
5.如权利要求4所述的方法,其特征在于,所述进行筛选的方法是:通过过滤器对所有的应
用根据其喜欢、不喜欢的评价个数进行二项分布概率测试,只有能够以95%概率证明该应...
【专利技术属性】
技术研发人员:刘譞哲,黄罡,梅宏,李豁然,陆璇,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。