社交平台的UGC标签聚类方法和装置制造方法及图纸

技术编号：9861025 阅读：143 留言：0更新日期：2014-04-02 19:50

本发明专利技术公开了一种社交平台的UGC标签聚类方法和装置，该方法包括：从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后，进行至少一次聚类以及质心的更新；其中，一次聚类以及质心的更新过程中：对未聚类的每个标签，计算该标签与各簇的相似度，若计算的相似度大于设定阈值，将该标签聚类到与之相似度最大的簇中；否则生成一个新的以该标签为质心的簇；统计本次聚类完成后得到的每个簇中的标签的个数，将标签个数小于第一数量阈值的簇解散后，针对剩余的每个簇，对于该簇中的每个标签，计算出该标签与该簇中的其它标签的相似度的和值；将该簇的质心更新为和值最大的标签。应用本发明专利技术，可提高聚类准确度以及运算速度。

全部详细技术资料下载

【技术实现步骤摘要】
社交平台的UGC标签聚类方法和装置
本专利技术涉及互联网技术，尤其涉及一种社交平台的UGC标签聚类方法和装置。
技术介绍
随着互联网技术的发展，通过社交平台来进行信息的分享、传播以及获取，已成为广大网民的主要社交方式之一。例如，通过微博或Twitter (推特)等社交平台，用户可以通过各种客户端组建个人社区，以140字左右的文字更新信息，并实现将自己的最新动态和想法即时分享。而社交平台下的UGC(User Generated Content,用户生成内容)标签,是由用户生成的对用户特征刻画的最为直接的内容，比如用户的身份、性格、兴趣情感等，因此，UGC标签成为社交平台下的领域专家搜索、好友推荐等应用的重要数据源。但是，UGC标签是用户自主生成的缺乏引导的多媒体数据，使得UGC标签中经常出现标签同义、或语义模糊等现象，导致UGC标签无法直接为上述应用提供有效的数据支持。因此，经常会预先对UGC标签进行聚类，将已聚类的UGC标签作为数据源。现有的基于凝聚式的层次聚类算法可以对UGC标签进行聚类。具体地，将每个标签分别当做一个簇后，计算每个簇之间的相似度，并将相似度高于设定阈值的簇合并成一个更大的簇；如此迭代，直到达到预期数量的簇。本专利技术的专利技术人发现，该基于凝聚式的层次聚类算法中，对于迭代过程中将某一标签划分为某一类簇后，在后续的迭代过程中将永远属于该类簇，因此，聚类准确度不高；而且，该基于凝聚式的层次聚类算法的时间复杂度与迭代次数成正比，而与社交平台下的UGC标签的总数的平方成正比，当进行大规模的标签聚类时，存在运算速度慢的不足。现有还提出了一...

【技术保护点】
一种社交平台的UGC标签聚类方法，其特征在于，包括：从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后，进行至少一次聚类以及质心的更新；其中，在一次聚类以及质心的更新过程中：对所述UGC标签中未聚类到簇中的每个标签，计算该标签与各簇的相似度，若计算的相似度大于设定阈值，则将该标签聚类到与之相似度最大的簇中；否则，生成一个新的簇，将该标签作为该新的簇的质心；对于本次聚类完成后所得到的每个簇，统计该簇的标签的个数；将标签的个数小于第一数量阈值的簇进行解散后，对于剩余的每个簇，进行该簇质心的更新：对于该簇中的每个标签，计算出该标签与该簇中的其它标签的相似度的和值；将该簇的质心更新为和值最大的标签。

【技术特征摘要】
1.一种社交平台的UGC标签聚类方法，其特征在于，包括: 从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后，进行至少一次聚类以及质心的更新；其中，在一次聚类以及质心的更新过程中: 对所述UGC标签中未聚类到簇中的每个标签，计算该标签与各簇的相似度，若计算的相似度大于设定阈值，则将该标签聚类到与之相似度最大的簇中；否则，生成一个新的簇，将该标签作为该新的簇的质心；对于本次聚类完成后所得到的每个簇，统计该簇的标签的个数；将标签的个数小于第一数量阈值的簇进行解散后，对于剩余的每个簇，进行该簇质心的更新:对于该簇中的每个标签，计算出该标签与该簇中的其它标签的相似度的和值；将该簇的质心更新为和值最大的标签。2.如权利要求1所述的方法，其特征在于，在所述统计该簇的标签的个数之后，还包括: 将标签的个数大于第二数量阈值的簇进行解散；其中，第一数量阈值小于第二数量阈值。3.如权利要求2所述的方法，其特征在于，所述计算该标签与各簇的相似度，具体包括: 对于每个簇，计算该标签与该簇中的每个标签的PMI，将计算出的PMI求和得到该标签与该簇的相似度；其中，所述计算该标签与该簇中的每个标签的PMI，具体包括: 根据如下公式I计算出该标签t与该簇中的一个标签c的PMI: …了 , F(t,c)xG PMI^(公式 υ 其中，F(t)为t在所述社交平台各用户的UGC标签中出现的频率；F(c)为c在所述社交平台各用户的UGC标签中出现的频率；F(t，c)为t和c同时出现在一个用户的UGC标签中的共现频率；G为所述社交平台上标注了 UGC标签的用户总数；其中，所述F(t，c)是根据预先统计的t和c同时出现在一个用户的UGC标签中的频次，与所述社交平台上标注了 UGC标签的用户总数的比值确定的。4.如权利要求2所述的方法，其特征在于，所述计算出该标签与该簇中的其它标签的相似度的和值，具体为: 计算出该标签与该簇中的其它标签的PMI的和值。5.如权利要求1-4任一所述的方法，其特征在于，所述进行至少一次聚类以及质心的更新，具体为:进行指定次数的聚类以及质心的更新。6.如权利要求1-4任一所述的方法，其特征在于，在所述一次聚类以及质心的更新前，还包括: 统计剩余的簇的个数作为本次聚类的有效簇个数；以及在所述一次聚类以及质心的更新后，还包括: 若确定本次聚类的有效簇个数与前次聚类的有效簇个数的差值小于设定个数，则继续下次聚类以及质心的更新。7.一种社交平台的UGC标签聚类装置，其特征...

【专利技术属性】
技术研发人员：昝艳，张俊林，
申请(专利权)人：微梦创科网络科技中国有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人