当前位置: 首页 > 专利查询>之江实验室专利>正文

基于社交文本的网络舆情话题识别方法和系统技术方案

技术编号:25185570 阅读:65 留言:0更新日期:2020-08-07 21:13
本发明专利技术提供一种基于社交文本的网络舆情话题识别方法,涉及文本数据处理技术领域。本发明专利技术考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。

【技术实现步骤摘要】
基于社交文本的网络舆情话题识别方法和系统
本专利技术涉及文本数据处理
,具体涉及一种基于社交文本的网络舆情话题识别方法和系统。
技术介绍
随着互联网的快速发展,社交网络成为社交媒体环境中一个重要组成部分,如新浪微博、Facebook、Twitter等正在成为非常受欢迎的社交平台。越来越多的用户在社交平台上发表自己的观点和评论,产生了大量的用户数据。面对这些可用的网络数据,准确发现其对应的主题,对于舆情监测、个性化营销等实际场景具有很高的应用价值。例如,在社会舆情监测中,政府或者相关管理部门可以根据用户在不同平台上发布的言论确定其态度和感情,从而进行正确的引导。由于海量网络信息的快速增长,近年来的研究主要集中在利用大规模的在线数据来挖掘有价值的主题信息,例如,在网络舆情分析系统中,网络事件具有突发性和快速传播性,及时迅速地对网络文本进行话题检测有助于相关监管部门对于网络舆情进行科学地决策;在知识转移领域中,将知识库中的知识进行话题检测,可以除去冗余数据并且将知识进行归类,可以提高后续知识传输和吸收过程中的效率。在话题发现中,文本聚类是常用的话题发现方法,近年来,越来越多学者开始将LDA应用到网络文本的话题发现,通过LDA模型的训练得到文本的潜在主题信息,进而有效地提取文本主题,实现话题的发现,然而,LDA模型忽略了随意性语言(即为本申请中所述的噪声词)可能导致的问题,导致模型不能准确识别出网络舆情话题。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于社交文本的网络舆情话题识别方法和系统,解决了现有技术不能准确识别出网络舆情话题的技术问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:本专利技术提供一种基于社交文本的网络舆情话题识别方法,所述方法由计算机执行,包括以下步骤:S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。优选的,在S1中,所述获取社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:S101、获取|M|条社交文本构成的文本集合D,记为|M|表示文本集合D中的文本数量,一个用户对应一条文本;S102、对所述文本集合D进行预处理;S103、基于预处理后的文本集合D建立向量1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引;S104、确定文本集合D中的主题个数K。优选的,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布和噪声词分布式(1)中:β和β'是狄利克雷分布的超参数;S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量表示;式(2)中:α是狄利克雷分布的超参数;表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布;S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;式(3)中:服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,与构成Beta-Multinomial共轭;cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,式(4)中,zmn服从多项式分布,表示第m条文本的第n个词的主题编号;当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。优选的,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:式(5)中:z-(mn)指除单词wmn外所有单词对应的主题编号;表示当cmn=1时,单词v被分配到主题k上的次数;表示当cmn=1时,被分配到主题k上的所有单词数;表示第m个用户文本中被分配到主题k上的单词数;所有带有公式-(mn)的计数均表示去除了单词wmn;γ,γ'表示Beta分布的参数;S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;式(6)中:表示所有由噪声词分布生成的单词数,去除单词wmn;表示所有由主题词分布生成的单词数,去除单词wmn;表示噪声词分布生成单词v的次数,去除单词wmn;表示噪声词分布生成所有词的次数,去除单词wmn;表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn;表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn;表示噪声词分布生成所有词的次数;所有带有公式-(mn)的计数均表示去除了单词wmn;S302、为S301中两个潜在参数zmn和cmn随机初始化值;S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。优选的,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:式(7)(8)(9)中:θmk表示文本-主题分布;φkv表示主题-主题词分布;...

【技术保护点】
1.一种基于社交文本的网络舆情话题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:/nS1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;/nS2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;/nS3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;/nS4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。/n

【技术特征摘要】
1.一种基于社交文本的网络舆情话题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。


2.如权利要求1所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S1中,所述获取社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:
S101、获取|M|条社交文本构成的文本集合D,记为|M|表示文本集合D中的文本数量,一个用户对应一条文本;
S102、对所述文本集合D进行预处理;
S103、基于预处理后的文本集合D建立向量1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引;
S104、确定文本集合D中的主题个数K。


3.如权利要求2所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布和噪声词分布



式(1)中:
β和β'是狄利克雷分布的超参数;
S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量表示;



式(2)中:
α是狄利克雷分布的超参数;

表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;






式(3)中:

服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,与构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,



式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。


4.如权利要求3所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:



式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;

表示当cmn=1时,单词v被分配到主题k上的次数;

表示当cmn=1时,被分配到主题k上的所有单词数;

表示第m个用户文本中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn;
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;






式(6)中:

表示所有由噪声词分布生成的单词数,去除单词wmn;

表示所有由主题词分布生成的单词数,去除单词wmn;

表示噪声词分布生成单词v的次数,去除单词wmn;

表示噪声词分布生成所有词的次数,去除单词wmn;

表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn;

表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn;

表示噪声词分布生成所有词的次数;
所有带有公式-(mn)的计数均表示去除了单词wmn;
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。


5.如权利要求1所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:









式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;

表示第m个用户文本中被分配到主题k上的单词数;

表示当c=1时,单词v被分配到主题k上的次数;

表示当c=1时,被分配到主题k上的所有单词数;

表示噪声词分布生成单词v的次数;

表示噪声词分布生成所有词的次数;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。


6.一种基于社交文本的网络舆情话题识别系统,其特征在于,所述系统包括计算...

【专利技术属性】
技术研发人员:姜元春张吉孙见山任祖杰单海军刘心语钱洋梁瑞成
申请(专利权)人:之江实验室合肥工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1