一种手机游戏分类算法制造技术

技术编号:18350517 阅读:263 留言:0更新日期:2018-07-01 23:47
本发明专利技术公开了一种手机游戏分类算法,通过计算不同平台下的游戏的名称、图标和描述简介的相似度,找出同款游戏,统一互联网上16个游戏提供平台的分类体系,按照统一的标准,通过计算游戏的描述简介文本的句子向量相似度和主题分布向量,以分词统计后的游戏标题、原有平台名称和原有平台的分类标签作为输入,训练GBDT模型,然后进行特征融合,在采用特定的分类算法进行分类,准确地将不同平台下的各种游戏进行分类。本发明专利技术具有极高的准确率,效果好,能有效地提高不同数据源游戏分类的精确率。

【技术实现步骤摘要】
一种手机游戏分类算法
本专利技术涉及文本分类的
,尤其是指一种手机游戏分类算法。
技术介绍
近年来,随着互联网的迅速发展,移动互联网的也异军突起,各种移动应用大量兴起。用户通过手机、平板电脑等从互联网上下载到各种各样功能丰富的移动应用。手机游戏作为移动应用开始大量出现,互联网上有成千上万种手机游戏,提供游戏下载的平台也数不胜数,但不同的平台上的很多游戏都是属于同一款的,只是游戏名称、图标和描述简介会存在不同。比如不同平台上的游戏名称后面的版本号不同,图标上加了水印等,但是这些手机游戏是完全一样的。用户在不同的平台上输入想要下载的游戏,最终得到的结果的名称、图标、应用描述简介可能会存在不同,但安装完成后的使用体验是一样的。对于提供游戏应用的平台来说,将各种游戏应用按照统一的标准进行划分,有助于游戏应用的管理,也能更好地向用户提供服务,提升用户对下载平台的体验。目前各个游戏应用下载平台的分类标准也不同,一款游戏在不同平台下可能属于不同的分类,但越来越多的游戏应用在出现,不同平台下的游戏应用越来越多,缺乏统一的分类标准。在进行网络评论分析时,商品或游戏作为分析的对象,通常是同一款商品或游戏在不同的平台下面,通常的商品评论分析都会选择某一平台进行,针对该平台的特点进行商品评论数据的分析。而对于手机游戏,用户从不同平台下载、安装并且玩过之后,会对其进行评价,而且手机游戏通常会在短期内又发行一个新版本,用户需要下载安装更新,获得改进后更好的版本。为了提取评论中的有效信息,分析用户行为,对不同平台下的同一款游戏进行分析会更有意义,因为大多数手机游戏玩家是从主流的游戏下载平台下载游戏APP,不同平台下的同款手机游戏的评论数据不等量但都很有价值,对不同平台的游戏进行分类汇总后,再进行评论抽取,获得评论中有价值的信息。目前并没有专门针对网络中不同手机游戏下载平台下的手机游戏进行分类的算法,本专利技术的一种手机游戏分类算法,通过计算不同平台下的游戏的名称、图标和描述简介的相似度,找出同款游戏。统一互联网上16个游戏提供平台的分类体系,按照统一的标准,通过计算游戏的描述简介文本的句子向量相似度和主题分布向量,以分词统计后的游戏标题、原有平台名称和原有平台的分类标签作为输入,训练梯度提升决策树(GBDT)模型,然后进行特征融合,在采用特定的分类算法进行分类,准确地将不同平台下的各种游戏进行分类。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提出了一种手机游戏分类算法,根据统一的分类标准,对不同平台下的各种游戏应用进行分类,其可以准确找出不同平台下的同款游戏,基于统一的分类标准,将属于跨数据平台的不同分类标签下的同款游戏精确地对分类到统一的分类标签下。为实现上述目的,本专利技术所提供的技术方案为:一种手机游戏分类算法,包括以下步骤:1)从网络上爬取游戏信息,包括数据源名称、游戏图标和游戏描述简介,并保存至数据库;2)计算不同数据源的游戏的名称之间的最大公共子串相似度和游戏图标之间的颜色分布直方图相似度,计算游戏描述简介的句向量相似度,同时利用LDA主题生成模型,即潜在狄利克雷分布主题生成模型,计算得到游戏描述简介的LDA主题分布相似度,将计算得到的值与设定的阈值相比较,得到不同数据源的同款游戏集合;3)进行数据标注,使用计算后得到的格式为“游戏名称#所属平台#游戏ID”同款游戏集合的结果,根据统一的分类标准,将不同平台下的同一款游戏分类到所属标签;4)计算各个数据源的游戏描述简介的句向量和LDA主题分布概率;5)以游戏名称、游戏所属平台和平台原有的分类标签作为输入特征,进行梯度提升决策树训练,即GBDT模型训练,得到GBDT叶子节点特征向量;6)将计算得到的游戏描述简介的句向量、主题向量、GBDT叶子结点向量进行特征融合;7)将融合后的特征向量作为输入特征,采用机器学习或深度学习算法进行训练,基于统一的分类标准,将不同数据源的游戏分为所属的分类标签。在步骤2)中,需要计算游戏名称之间的最大公共子串的相似度、计算游戏图标的余弦相似度、计算游戏描述简介文本之间的相似度和主题分布相似度;其中:游戏名称的最大公共子串相似度计算公式如下:其中,左边NameSim表示游戏名称的相似度;右边GameName表示游戏名称,用下标i,j来表示两个不同的游戏名称;分子中的LCS表示最大公共子串,用来衡量两个字符串的重合程度,分子表示计算两个游戏名称的最大公共子串;分母中的Len(GameName)表示计算得到游戏名称长度,分母表示先计算两个游戏GameNamei和GameNamej的游戏名称字符串长度,再比较两个游戏名称长度,取两者较小的一个;通过比较两个手游名称的最大公共子串长度和两个手游名称长度的最小值,得到一个值区间在[0,1]的比值;游戏图标的颜色直方图相似度计算采用向量相似度匹配中常用的巴氏系数计算,公式如下:RGBSim=cosine(RGBHistogrami,RGBHistogramj)其中,用等号左边RGBSim计算得到的图标直方图余弦相似度的值,RGBHistogram表示游戏图标的颜色直方图向量,用下标i和j来表示两个不同游戏的图标;游戏描述简介的句向量相似度,计算公式如下:Snt2vecSim=cosine(Snt2Vectori,Snt2Vectorj)其中,左边Snt2vecSim表示计算后得到的两个游戏描述简介的句向量相似度,Snt2Vector表示每个游戏描述简介文本经过计算后的句向量,用下标i和j来表示两个不同游戏的描述简介,采用句向量相似度的计算方法,直接计算两个描述简介文本的句向量的余弦相似度;cosine表示余弦相似度,计算公式如下:其中,Ai、Bi表示n维向量;将计算得到的相似度与设定的阈值相比较,判断两个游戏是否是相似的,满足规则过滤要求的两个游戏就判断为是同款的游戏;其中,判断两个游戏是否属于同款的规则过滤要求,具体如下:a、如果游戏名称的最大公共子串的相似度越接近1,则认为两个游戏越相似;b、计算游戏图标的余弦相似度,计算得到的值越接近1,则认为两个游戏的图标越相似;c、计算得到的游戏描述简介文本之间的相似度越接近1,则认为两个游戏越相似,同时计算得到的主题分布向量相似度,如果两个游戏不属于同类主题,则它们一定不是同款的。在步骤4)中,需要计算不同数据源各个游戏的描述简介的句子向量以及计算每个游戏描述的主题分布向量,得到每个游戏描述在不同主题上的概率值,进而进一步得出不同主题类型下的主题词分布。在步骤5)中,以游戏名称、游戏所属平台和平台原有的分类标签作为输入特征,进行梯度提升决策树训练,得到GBDT叶子节点特征向量,其具体过程为:由于爬取到的原始数据中,手游的游戏名称会存在微小差别,采用jieba分词,统计输出tf-idf值最大的前m款手游的名称,m至少为2000,将分词结果与原平台所属的分类标签和平台名称组合为“游戏名称#平台名称#分类标签”的形式,通过计算得到可作为GBDT的输入特征的向量,然后进行GBDT模型训练;GBDT模型中,每一棵树,只有一个叶子节点是输出1,其它输出0,多棵树,就有少量的1,和很多的0,每棵树输出1的叶子节点,就代表一种组合特征,将这些0和1连接起来得到本文档来自技高网
...
一种手机游戏分类算法

【技术保护点】
1.一种手机游戏分类算法,其特征在于,包括以下步骤:1)从网络上爬取游戏信息,包括数据源名称、游戏图标和游戏描述简介,并保存至数据库;2)计算不同数据源的游戏的名称之间的最大公共子串相似度和游戏图标之间的颜色分布直方图相似度,计算游戏描述简介的句向量相似度,同时利用LDA主题生成模型,即潜在狄利克雷分布主题生成模型,计算得到游戏描述简介的LDA主题分布相似度,将计算得到的值与设定的阈值相比较,得到不同数据源的同款游戏集合;3)进行数据标注,使用同款游戏集合的结果,格式为:“游戏名称#所属平台#游戏ID”,然后根据统一的分类标准,将不同数据源的同款游戏分类到所属标签;4)计算各个数据源的游戏描述简介文本的句向量和LDA主题分布概率;5)以游戏名称、游戏所属平台和平台原有的分类标签作为输入特征,进行梯度提升决策树训练,即GBDT模型训练,得到GBDT叶子节点特征向量;6)将计算得到的游戏描述简介的句向量、主题向量、GBDT叶子结点向量进行特征融合;7)将融合后的特征向量作为输入特征,采用机器学习或深度学习算法进行训练,基于统一的分类标准,将不同数据源的游戏分为所属的分类标签。

【技术特征摘要】
1.一种手机游戏分类算法,其特征在于,包括以下步骤:1)从网络上爬取游戏信息,包括数据源名称、游戏图标和游戏描述简介,并保存至数据库;2)计算不同数据源的游戏的名称之间的最大公共子串相似度和游戏图标之间的颜色分布直方图相似度,计算游戏描述简介的句向量相似度,同时利用LDA主题生成模型,即潜在狄利克雷分布主题生成模型,计算得到游戏描述简介的LDA主题分布相似度,将计算得到的值与设定的阈值相比较,得到不同数据源的同款游戏集合;3)进行数据标注,使用同款游戏集合的结果,格式为:“游戏名称#所属平台#游戏ID”,然后根据统一的分类标准,将不同数据源的同款游戏分类到所属标签;4)计算各个数据源的游戏描述简介文本的句向量和LDA主题分布概率;5)以游戏名称、游戏所属平台和平台原有的分类标签作为输入特征,进行梯度提升决策树训练,即GBDT模型训练,得到GBDT叶子节点特征向量;6)将计算得到的游戏描述简介的句向量、主题向量、GBDT叶子结点向量进行特征融合;7)将融合后的特征向量作为输入特征,采用机器学习或深度学习算法进行训练,基于统一的分类标准,将不同数据源的游戏分为所属的分类标签。2.根据权利要求1所述的一种手机游戏分类算法,其特征在于:在步骤2)中,需要计算计算不同数据源的游戏的名称之间的最大公共子串相似度和游戏图标之间的颜色直方图相似度,计算游戏描述简介的句向量相似度和LDA主题分布相似度;游戏名称的最大公共子串相似度计算公式如下:其中,左边NameSim表示游戏名称的相似度;右边GameName表示游戏名称,用下标i,j来表示两个不同的游戏名称;分子中的LCS表示最大公共子串,用来衡量两个字符串的重合程度,分子表示计算两个游戏名称的最大公共子串;分母中的Len(GameName)表示计算得到游戏名称长度,分母表示先计算两个游戏GameNamei和GameNamej的游戏名称字符串长度,再比较两个游戏名称长度,取两者较小的一个;通过比较两个手游名称的最大公共子串长度和两个手游名称长度的最小值,得到一个值区间在[0,1]的比值;游戏图标的颜色直方图相似度计算采用向量相似度匹配中常用的巴氏系数计算,公式如下:RGBSim=cosine(RGBHistogrami,RGBHistogramj)其中,用等号左边RGBSim计算得到的图标直方图余弦相似度的值,RGBH...

【专利技术属性】
技术研发人员:董守玲张荣陈海棋董守斌
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1