【技术实现步骤摘要】
一种手机游戏分类算法
本专利技术涉及文本分类的
,尤其是指一种手机游戏分类算法。
技术介绍
近年来,随着互联网的迅速发展,移动互联网的也异军突起,各种移动应用大量兴起。用户通过手机、平板电脑等从互联网上下载到各种各样功能丰富的移动应用。手机游戏作为移动应用开始大量出现,互联网上有成千上万种手机游戏,提供游戏下载的平台也数不胜数,但不同的平台上的很多游戏都是属于同一款的,只是游戏名称、图标和描述简介会存在不同。比如不同平台上的游戏名称后面的版本号不同,图标上加了水印等,但是这些手机游戏是完全一样的。用户在不同的平台上输入想要下载的游戏,最终得到的结果的名称、图标、应用描述简介可能会存在不同,但安装完成后的使用体验是一样的。对于提供游戏应用的平台来说,将各种游戏应用按照统一的标准进行划分,有助于游戏应用的管理,也能更好地向用户提供服务,提升用户对下载平台的体验。目前各个游戏应用下载平台的分类标准也不同,一款游戏在不同平台下可能属于不同的分类,但越来越多的游戏应用在出现,不同平台下的游戏应用越来越多,缺乏统一的分类标准。在进行网络评论分析时,商品或游戏作为分析的对象,通常是同一款商品或游戏在不同的平台下面,通常的商品评论分析都会选择某一平台进行,针对该平台的特点进行商品评论数据的分析。而对于手机游戏,用户从不同平台下载、安装并且玩过之后,会对其进行评价,而且手机游戏通常会在短期内又发行一个新版本,用户需要下载安装更新,获得改进后更好的版本。为了提取评论中的有效信息,分析用户行为,对不同平台下的同一款游戏进行分析会更有意义,因为大多数手机游戏玩家是从主流的游 ...
【技术保护点】
1.一种手机游戏分类算法,其特征在于,包括以下步骤:1)从网络上爬取游戏信息,包括数据源名称、游戏图标和游戏描述简介,并保存至数据库;2)计算不同数据源的游戏的名称之间的最大公共子串相似度和游戏图标之间的颜色分布直方图相似度,计算游戏描述简介的句向量相似度,同时利用LDA主题生成模型,即潜在狄利克雷分布主题生成模型,计算得到游戏描述简介的LDA主题分布相似度,将计算得到的值与设定的阈值相比较,得到不同数据源的同款游戏集合;3)进行数据标注,使用同款游戏集合的结果,格式为:“游戏名称#所属平台#游戏ID”,然后根据统一的分类标准,将不同数据源的同款游戏分类到所属标签;4)计算各个数据源的游戏描述简介文本的句向量和LDA主题分布概率;5)以游戏名称、游戏所属平台和平台原有的分类标签作为输入特征,进行梯度提升决策树训练,即GBDT模型训练,得到GBDT叶子节点特征向量;6)将计算得到的游戏描述简介的句向量、主题向量、GBDT叶子结点向量进行特征融合;7)将融合后的特征向量作为输入特征,采用机器学习或深度学习算法进行训练,基于统一的分类标准,将不同数据源的游戏分为所属的分类标签。
【技术特征摘要】
1.一种手机游戏分类算法,其特征在于,包括以下步骤:1)从网络上爬取游戏信息,包括数据源名称、游戏图标和游戏描述简介,并保存至数据库;2)计算不同数据源的游戏的名称之间的最大公共子串相似度和游戏图标之间的颜色分布直方图相似度,计算游戏描述简介的句向量相似度,同时利用LDA主题生成模型,即潜在狄利克雷分布主题生成模型,计算得到游戏描述简介的LDA主题分布相似度,将计算得到的值与设定的阈值相比较,得到不同数据源的同款游戏集合;3)进行数据标注,使用同款游戏集合的结果,格式为:“游戏名称#所属平台#游戏ID”,然后根据统一的分类标准,将不同数据源的同款游戏分类到所属标签;4)计算各个数据源的游戏描述简介文本的句向量和LDA主题分布概率;5)以游戏名称、游戏所属平台和平台原有的分类标签作为输入特征,进行梯度提升决策树训练,即GBDT模型训练,得到GBDT叶子节点特征向量;6)将计算得到的游戏描述简介的句向量、主题向量、GBDT叶子结点向量进行特征融合;7)将融合后的特征向量作为输入特征,采用机器学习或深度学习算法进行训练,基于统一的分类标准,将不同数据源的游戏分为所属的分类标签。2.根据权利要求1所述的一种手机游戏分类算法,其特征在于:在步骤2)中,需要计算计算不同数据源的游戏的名称之间的最大公共子串相似度和游戏图标之间的颜色直方图相似度,计算游戏描述简介的句向量相似度和LDA主题分布相似度;游戏名称的最大公共子串相似度计算公式如下:其中,左边NameSim表示游戏名称的相似度;右边GameName表示游戏名称,用下标i,j来表示两个不同的游戏名称;分子中的LCS表示最大公共子串,用来衡量两个字符串的重合程度,分子表示计算两个游戏名称的最大公共子串;分母中的Len(GameName)表示计算得到游戏名称长度,分母表示先计算两个游戏GameNamei和GameNamej的游戏名称字符串长度,再比较两个游戏名称长度,取两者较小的一个;通过比较两个手游名称的最大公共子串长度和两个手游名称长度的最小值,得到一个值区间在[0,1]的比值;游戏图标的颜色直方图相似度计算采用向量相似度匹配中常用的巴氏系数计算,公式如下:RGBSim=cosine(RGBHistogrami,RGBHistogramj)其中,用等号左边RGBSim计算得到的图标直方图余弦相似度的值,RGBH...
【专利技术属性】
技术研发人员:董守玲,张荣,陈海棋,董守斌,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。