社交平台的UGC标签聚类方法和装置制造方法及图纸

技术编号:9861025 阅读:134 留言:0更新日期:2014-04-02 19:50
本发明专利技术公开了一种社交平台的UGC标签聚类方法和装置,该方法包括:从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,一次聚类以及质心的更新过程中:对未聚类的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,将该标签聚类到与之相似度最大的簇中;否则生成一个新的以该标签为质心的簇;统计本次聚类完成后得到的每个簇中的标签的个数,将标签个数小于第一数量阈值的簇解散后,针对剩余的每个簇,对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。应用本发明专利技术,可提高聚类准确度以及运算速度。

【技术实现步骤摘要】
社交平台的UGC标签聚类方法和装置
本专利技术涉及互联网技术,尤其涉及一种社交平台的UGC标签聚类方法和装置。
技术介绍
随着互联网技术的发展,通过社交平台来进行信息的分享、传播以及获取,已成为广大网民的主要社交方式之一。例如,通过微博或Twitter (推特)等社交平台,用户可以通过各种客户端组建个人社区,以140字左右的文字更新信息,并实现将自己的最新动态和想法即时分享。而社交平台下的UGC(User Generated Content,用户生成内容)标签,是由用户生成的对用户特征刻画的最为直接的内容,比如用户的身份、性格、兴趣情感等,因此,UGC标签成为社交平台下的领域专家搜索、好友推荐等应用的重要数据源。但是,UGC标签是用户自主生成的缺乏引导的多媒体数据,使得UGC标签中经常出现标签同义、或语义模糊等现象,导致UGC标签无法直接为上述应用提供有效的数据支持。因此,经常会预先对UGC标签进行聚类,将已聚类的UGC标签作为数据源。现有的基于凝聚式的层次聚类算法可以对UGC标签进行聚类。具体地,将每个标签分别当做一个簇后,计算每个簇之间的相似度,并将相似度高于设定阈值的簇合并成一个更大的簇;如此迭代,直到达到预期数量的簇。本专利技术的专利技术人发现,该基于凝聚式的层次聚类算法中,对于迭代过程中将某一标签划分为某一类簇后,在后续的迭代过程中将永远属于该类簇,因此,聚类准确度不高;而且,该基于凝聚式的层次聚类算法的时间复杂度与迭代次数成正比,而与社交平台下的UGC标签的总数的平方成正比,当进行大规模的标签聚类时,存在运算速度慢的不足。现有还提出了一种由K-means (K-聚类方法)算法演变的K中心聚类算法也可以对UGC标签进行聚类:根据预先指定的簇数目k,在聚类过程中计算标签到k个簇中心点(簇中心点是某个具体的标签)的相似度来完成类别指派,然后根据规则更新各个簇的中心点;反复迭代,直到满足k个中心点不再发生变化为止;这样将社交平台的UGC标签最终聚类到k个簇中。然而,本专利技术的专利技术人发现,该算法也存在聚类结果不准确的问题:在实际应用中,预先指定的簇数目k可能并不合适,例如,当指定的k值过大时,可能会出现相似度较高的两个标签划分到不同的簇中,使得聚类比较分散,聚类结果准确度不高;当指定的k值过小时,则簇中的标签个数会比较多,这样会存在相似度不高的两个标签聚类到一个簇中,使得簇的凝聚度不高,降低聚类结果的准确度。此外,该算法的时间复杂度也与社交平台下的UGC标签的总数的平方成正比,因此,运算速度也较慢。综上所述,现有对UGC标签进行聚类的方法,存在聚类结果不准确以及运算速度慢的不足;因此,有必要提供一种可以提高聚类准确度和运算速度的社交平台的UGC标签聚类方法。
技术实现思路
本专利技术实施例提供了一种社交平台的UGC标签聚类方法和装置,用以提高聚类准确度并提高运算速度。根据本专利技术的一个方面,提供了一种社交平台的UGC标签聚类方法,包括:从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中:对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。较佳地,在所述统计该簇的标签的个数之后,所述社交平台的UGC标签聚类方法还包括:将标签的个数大于第二数量阈值的簇进行解散;其中,第一数量阈值小于第二数量阈值。 较佳地,所述计算该标签与各簇的相似度,具体包括:对于每个簇,计算该标签与该簇中的每个标签的PMI,将计算出的PMI求和得到该标签与该簇的相似度;其中,所述计算该标签与该簇中的每个标签的PMI,具体包括:根据如下公式I计算出该标签t与该簇中的一个标签c的PMI:本文档来自技高网
...

【技术保护点】
一种社交平台的UGC标签聚类方法,其特征在于,包括:从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中:对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。

【技术特征摘要】
1.一种社交平台的UGC标签聚类方法,其特征在于,包括: 从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中: 对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心; 对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。2.如权利 要求1所述的方法,其特征在于,在所述统计该簇的标签的个数之后,还包括: 将标签的个数大于第二数量阈值的簇进行解散;其中,第一数量阈值小于第二数量阈值。3.如权利要求2所述的方法,其特征在于,所述计算该标签与各簇的相似度,具体包括: 对于每个簇,计算该标签与该簇中的每个标签的PMI,将计算出的PMI求和得到该标签与该簇的相似度; 其中,所述计算该标签与该簇中的每个标签的PMI,具体包括: 根据如下公式I计算出该标签t与该簇中的一个标签c的PMI: …了 , F(t,c)xG PMI^(公式 υ 其中,F(t)为t在所述社交平台各用户的UGC标签中出现的频率;F(c)为c在所述社交平台各用户的UGC标签中出现的频率;F(t,c)为t和c同时出现在一个用户的UGC标签中的共现频率;G为所述社交平台上标注了 UGC标签的用户总数; 其中,所述F(t,c)是根据预先统计的t和c同时出现在一个用户的UGC标签中的频次,与所述社交平台上标注了 UGC标签的用户总数的比值确定的。4.如权利要求2所述的方法,其特征在于,所述计算出该标签与该簇中的其它标签的相似度的和值,具体为: 计算出该标签与该簇中的其它标签的PMI的和值。5.如权利要求1-4任一所述的方法,其特征在于,所述进行至少一次聚类以及质心的更新,具体为:进行指定次数的聚类以及质心的更新。6.如权利要求1-4任一所述的方法,其特征在于,在所述一次聚类以及质心的更新前,还包括: 统计剩余的簇的个数作为本次聚类的有效簇个数;以及 在所述一次聚类以及质心的更新后,还包括: 若确定本次聚类的有效簇个数与前次聚类的有效簇个数的差值小于设定个数,则继续下次聚类以及质心的更新。7.一种社交平台的UGC标签聚类装置,其特征...

【专利技术属性】
技术研发人员:昝艳张俊林
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1