本发明专利技术涉及一种基于博客的主题专家识别算法,得出所有博客关于某个主题的主题质量分,将所有博客按照主题质量分的高低进行排序。本发明专利技术基于目前主题识别和博客社区抽取算法中存在的主要缺陷(如社区很小、主题意义不明确、成员内聚性弱、社区成员构成复杂等),设计了一个有效的方法,具有如下优点:综合考虑博文长度、评论长度、评论次数、评论质量、评论者的质量等多种因素,来对一个博客进行质量分评定,通过迭代使得质量分达到一个稳定的值,并由此制作出关于这个主题的博客排名。根据这个主题博客排名,进一步识别主题专家博客,使得博客在主题相关性,纯粹性,内聚性等方面得到了很大提高。
Topic recognition algorithm based on Blog
The invention relates to a blog based topic expert recognition algorithm, which can obtain the quality of the subject matter of a blog on a certain topic. The invention is based on the main defects of the current topic identification and extraction algorithm in the blog community (such as community is very small, the theme is not clear, the members of cohesion and weak community members constitute complex), design an effective method, has the following advantages: considering the length, length, post comments, comment number of comments the quality, critics and other factors, to a blog for quality assessment, the quality of the iterative reach a stable value, and thus make on this blog ranking. According to the theme of the blog ranking, to further identify the topic of expert blog, so that the blog in the theme of relevance, purity, cohesion and other aspects have been greatly improved.
【技术实现步骤摘要】
本专利技术涉及一种对博客世界中的主题专家进行识别的算法。
技术介绍
博客世界中的主题专家就是一个在特定的主题上经常发表文章来表达自己的见解,能够在别人同主题的博客上经常进行评论来讨论这个主题,能够受到很多关注同主题的其他专家的肯定,受到多数人的追捧的人。主题社区则是一个由特定主题的主题专家组成的社区,这个社区中的成员经常就某主题交流意见,发表文章谈论看法等。Agarwal提出了一种对有影响力的重要博客进行识别的算法。在他的算法中,如果一个博客至少发表过一篇重要的博文,那么就认为这个博客是一个有影响力的博客。那么,其算法的实质就是找到博客世界中有影响力的博文,然后查看博文所属的博客,其寻找有影响力的博文主要是从博客文章的长度,回复长度,博客的活跃性等方面进行考察,找出从各个不同角度综合考察的重要博文,进而找到有影响力的博客。使用Agarwal的算法不能实现寻找主题专家的目的,虽然其博客识别算法在一定程度上能够满足人们的应用需求,但是也存在着很多缺陷,比如:(1)没有考虑评论者的质量,如果一篇博文有很多比较厉害的博主跟帖评论,那么所造成的影响比一般的评论要大;(2)评论的长度,如果真正有人愿意就博文的问题进行讨论,那么评论的长度也能一定程度上反应评论人的积极性;(3)没有考虑主题,当人们真正想要找某方面主题的博文时,那么他们可能会想寻找关于这个主题的圈子里面最好的文章,而Agarwal的算法目前还做不到这一点。
技术实现思路
本专利技术的目的是提供一种高质量的基于博客的主题专家识别算法,有效地弥补了Agarwal算法的不足,从而能更好的满足现实需要。为了达到上述目的,本专利技术的技术方案是提供了一种基于博客的主题专家识别算法,得出所有博客关于某个主题的主题质量分,将所有博客按照主题质量分的高低进行排序,其特征在于,将博客中的所有评论分为四类,分别为:第一类评论:针对其他博客博文的评论,并且同时与当前主题相关;第二类评论:针对自己博客博文的评论,并且同时与当前主题相关;第三类评论:针对其他博客博文的评论,并且与当前主题无关;第四类评论:针对自己博客博文的评论,并且与当前主题无关,则对于任意一个博客bi,其主题质量分的计算包括以下步骤:将博客bi的主题质量分分为固定质量分FixedQS(bi)和可变质量分MutableQS(bi),则有:在公式(1)中,PQS(bi)表示博客bi中博文的质量分,CQS(bi)表示博客bi中评论的质量分,dps(pij)表示博客bi中第j条博文的质量分,dps(cil)表示博客bi中第一类评论中的第l条评论的质量分,dps(cij)表示博客bi中第二类评论中的第j条评论的质量分,n表示博客bi中博文的总数,m1表示博客bi中第一类评论的总数,m2表示博客bi中第二类评论的总数,wp、wc分别为权重分配因子;在公式(2)中,FameCQS(bi)表示博客bi中评论的虚拟质量分,fame_qs(cim)表示博客bi中第三类评论中的第m条评论的虚拟质量分,fame_sim表示虚拟相似度,length(cim)表示第三类评论中的第m条评论的长度,m3表示博客bi所有博文获取他人第三类评论的总数量,wcf为权重分配因子;对于可变质量分MutableQS(bi),同时有公式(3):commenter_count(bi)表示对博客bi做出评论的所有评论者的数目,MutableQS(bk)表示对博客bi做出评论的所有评论者中第k个评论者的可变质量分,num(ck_on_bi)表示对博客bi做出评论的所有评论者中第k个评论者对博客bi做出评论的总数,dps(ckr)表示对博客bi做出评论的所有评论者中第k个评论者的博客中第一类评论及第二类评论中的第r条评论的质量分,fame_qs(ckr)表示对博客bi做出评论的所有评论者中第k个评论者的博客中第三类评论中的第r条评论的虚拟质量分,Total_CQS(bk)表示对博客bi做出评论的所有评论者中第k个评论者的博客中所有第一类评论的质量分、第二类评论的质量分及第三类评论的虚拟质量分的和,sim(ckr)表示对博客bi做出评论的所有评论者中第k个评论者的博客中第r条评论与当前主题的相关度;根据公式(2)及公式(3)循环迭代计算博客bi的可变质量分MutableQS(bi)直至收敛于稳定的值,得到最终的可变质量分MutableQS(bi),并将其与固定质量分FixedQS(bi)求和,得到博客bi的主题质量分。本专利技术基于目前主题识别和博客社区抽取算法中存在的主要缺陷(如社区很小、主题意义不明确、成员内聚性弱、社区成员构成复杂等),设计了一个有效的方法,具有如下优点:综合考虑博文长度、评论长度、评论次数、评论质量、评论者的质量等多种因素,来对一个博客进行质量分评定,通过迭代使得质量分达到一个稳定的值,并由此制作出关于这个主题的博客排名。根据这个主题博客排名,进一步识别主题专家博客,使得博客在主题相关性,纯粹性,内聚性等方面得到了很大提高。附图说明图1是由三个博客组成的博客关系图,图中的三个博客之间通过相互评论而有了关联,其中各个元素的含义如下:(1)三个大的虚线椭圆代表三个博客;(2)椭圆内的白色小方框用来表示属于该博客的博文,而方框上附着的数字表示该博文关于某给定主题的质量分;(3)黑色小圆点表示该博客的博主所发表的评论,注意这里的评论不是别人对博文的评论;从评论到博文的有向弧表示评论的指向,即某个评论是针对某一篇博文进行的,评论有两种:一种是针对别人的博文的评论,另一种是对自己博文的评论,第二种评论一般是当评论中出现了博主感兴趣的内容而由博主和读者进行的互动,有向弧上的数字表示该评论关于所考察主题的质量分;图2为含有在文章中出现频数的关键词聚类;图3为专家博客的n_hc和n_lc的比值;图4为VQS的变化率。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术提供的一种基于博客的主题专家识别算法是得出所有博客关于某个主题的主题质量分后,将所有博客按照主题质量分的高低进行排序。在进行主题质量分计算前,本专利技术将博客中的各条评论分为四大类,设cij为博客bi中的第j条评论,则有:第一类评论cij是针对其他博客博文的评论,并且同时sim(cij)>0,sim(cij)表示cij与当前主题的相关度,也就是说cij是给与别人的和主题相关的评论。第一类评论对应于图1中博客之间实线弧。对于第一类评论来说,其对所属博客本身和他人博客的主题质量分都有贡献,如图1中的实线弧(c11,p21)所示,p21表示博客b2中的第1条博文。对于自己博客主题质量分的贡献主要体现在第一类评论将会参与到博客本身主题质量分的计算中去,这就相当于是发表了高质量的内容。第一类评论对于他人的贡献则在于对他人的投票,对别人发表高质量的评论就体现了一种对他人博文的兴趣,即便这条评论可能并不认同所评论博文的观点,但是仍然对他人博客的主题质量分的计算能够起到一定的作用。如评论c11的作用就有两个:参与博客本文档来自技高网...
【技术保护点】
一种基于博客的主题专家识别算法,得出所有博客关于某个主题的主题质量分,将所有博客按照主题质量分的高低进行排序,其特征在于,将博客中的所有评论分为四类,分别为:第一类评论:针对其他博客博文的评论,并且同时与当前主题相关;第二类评论:针对自己博客博文的评论,并且同时与当前主题相关;第三类评论:针对其他博客博文的评论,并且与当前主题无关;第四类评论:针对自己博客博文的评论,并且与当前主题无关,则对于任意一个博客bi,其主题质量分的计算包括以下步骤:将博客bi的主题质量分分为固定质量分FixedQS(bi)和可变质量分MutableQS(bi),则有:FixedQS(bi)=PQS(bi)+CQS(bi)=wpΣj=1ndqs(pij)+wc(Σl=1m1dqs(cil)+Σj=1m2dqs(cij))---(1)]]>在公式(1)中,PQS(bi)表示博客bi中博文的质量分,CQS(bi)表示博客bi中评论的质量分,dps(pij)表示博客bi中第j条博文的质量分,dps(cil)表示博客bi中第一类评论中的第l条评论的质量分,dps(cij)表示博客bi中第二类评论中的第j条评论的质量分,n表示博客bi中博文的总数,m1表示博客bi中第一类评论的总数,m2表示博客bi中第二类评论的总数,wp、wc分别为权重分配因子;MutableQS(bi)=FixedQS(bi)+FameCQS(bi)=wpΣj=1ndqs(pij)+wc(Σl=1m1dqs(cil)+Σj=1m2dqs(cij))+wcfΣm=1m3fame_qs(cim)---(2)]]>在公式(2)中,FameCQS(bi)表示博客bi中评论的虚拟质量分,fame_qs(cim)表示博客bi中第三类评论中的第m条评论的虚拟质量分,fame_sim表示虚拟相似度,length(cim)表示第三类评论中的第m条评论的长度,m3表示博客bi所有博文获取他人第三类评论的总数量,wcf为权重分配因子;对于可变质量分MutableQS(bi),同时有公式(3):MutableQS(bi)=Σk=1commenter_count(bi)(MutableQS(bk)×Σr=1num(ck_on_bi)ratio(ckr))---(3)]]>commenter_count(bi)表示对博客bi做出评论的所有评论者的数目,MutableQS(bk)表示对博客bi做出评论的所有评论者中第k个评论者的可变质量分,num(ck_on_bi)表示对博客bi做出评论的所有评论者中第k个评论者对博客bi做出评论的总数,dps(ckr)表示对博客bi做出评论的所有评论者中第k个评论者的博客中第一类评论及第二类评论中的第r条评论的质量分,fame_qs(ckr)表示对博客bi做出评论的所有评论者中第k个评论者的博客中第三类评论中的第r条评论的虚拟质量分,Total_CQS(bk)表示对博客bi做出评论的所有评论者中第k个评论者的博客中所有第一类评论的质量分、第二类评论的质量分及第三类评论的虚拟质量分的和,sim(ckr)表示对博客bi做出评论的所有评论者中第k个评论者的博客中第r条评论与当前主题的相关度;根据公式(2)及公式(3)循环迭代计算博客bi的可变质量分MutableQS(bi)直至收敛于稳定的值,得到最终的可变质量分MutableQS(bi),并将其与固定质量分FixedQS(bi)求和,得到博客bi的主题质量分。...
【技术特征摘要】
1.一种基于博客的主题专家识别算法,得出所有博客关于某个主题的主题质量分,将所有博客按照主题质量分的高低进行排序,其特征在于,将博客中的所有评论分为四类,分别为:第一类评论:针对其他博客博文的评论,并且同时与当前主题相关;第二类评论:针对自己博客博文的评论,并且同时与当前主题相关;第三类评论:针对其他博客博文的评论,并且与当前主题无关;第四类评论:针对自己博客博文的评论,并且与当前主题无关,则对于任意一个博客bi,其主题质量分的计算包括以下步骤:将博客bi的主题质量分分为固定质量分FixedQS(bi)和可变质量分MutableQS(bi),则有:FixedQS(bi)=PQS(bi)+CQS(bi)=wpΣj=1ndqs(pij)+wc(Σl=1m1dqs(cil)+Σj=1m2dqs(cij))---(1)]]>在公式(1)中,PQS(bi)表示博客bi中博文的质量分,CQS(bi)表示博客bi中评论的质量分,dps(pij)表示博客bi中第j条博文的质量分,dps(cil)表示博客bi中第一类评论中的第l条评论的质量分,dps(cij)表示博客bi中第二类评论中的第j条评论的质量分,n表示博客bi中博文的总数,m1表示博客bi中第一类评论的总数,m2表示博客bi中第二类评论的总数,wp、wc分别为权重分配因子;MutableQS(bi)=FixedQS(bi)+FameCQS(bi)=wpΣj=1ndqs(pij)+wc(Σl=1m1dqs(cil)+Σj=1m2dqs(cij))+wcfΣm=1m3fame_qs(cim)---(2)]]>在公式(2)中,FameCQS(bi)表示博客bi中评论...
【专利技术属性】
技术研发人员:李宇佳,
申请(专利权)人:上海电机学院,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。