一种基于语义和词扩展的社交用户主题分析方法及系统技术方案

技术编号:33708485 阅读:15 留言:0更新日期:2022-06-06 08:36
本发明专利技术公开了一种基于语义和词扩展的社交用户主题分析方法及系统,涉及网络用户信息评定技术领域,解决了现有技术主题分析方法中用户发文信息间很可能不存在任何上下文关联,其技术方案是:提出了一种基于语义和词扩展的短文本主题模型,不仅融合了短文本的语义信息,还通过外部语料知识进行词对扩展,在解决短文本稀疏问题的同时,增强文本的主题倾向;在基于语义和词扩展的短文本主题模型之上,采用了一种依据用户间互动量的发文主题加权法,区别发文间的重要程度,从而计算用户的主题分布。本发明专利技术的社交用户主题分析方法相较于传统的主题特征分析方法,更具合理性。更具合理性。更具合理性。

【技术实现步骤摘要】
一种基于语义和词扩展的社交用户主题分析方法及系统


[0001]本专利技术涉及一种网络用户信息评定
,更具体地说,它涉及一种基于语义和词扩展的社交用户主题分析方法及系统。

技术介绍

[0002]随着互联网的不断发展,网络中的短文本数据呈爆发式增长,人们可以在各种社交平台中发布各种信息。因此,如何从社交平台中分析用户特征是非常有研究价值和实际意义的事情。其中,社交用户的主题特征便是研究重点之一。目前各大社交平台如微博、推特、微信等的信息传播大多都是短文本形式。短文本数据和篇章级的长文本数据不同,短文本数据有着不同的语言规律。而用户又是社交平台中的主体,每位用户可以发布成千的短文本信息。对于企业来讲,针对用户的主题信息进行分析,可以让企业提出具有针对性的方案以此提升用户体验,具有一定的商业价值,对于学者而言,分析用户的主题分布,可以作为社会科学研究成果。
[0003]当前,针对社交平台用户的主题特征提取常用方法是将同一用户所有的发文整合成一个整体,使其成为一个长文档,再把该长文档输入到主题模型中便得到文档的主题分布,将此分布视为用户的主题分布,这样做虽然可以解决短文本稀疏问题,同时也能获取“用户级”的主题特征。但是,用户的发文间很可能不存在任何上下文关联,甚至讲述的不是同一主题的事物。因此,简单的将同一用户的所有发文合并成伪文档是不合理的。
[0004]因此,如何使得分析出的用户的主题分布特征更加的合理是目前亟需解决的问题。

技术实现思路

[0005]本专利技术的目的是提供一种基于语义和词扩展的社交用户主题分析方法及系统;解决了现有技术主题分析方法得出的主题分布特征的用户发文信息间很可能不存在任何上下文关联,甚至讲述的不是同一主题的事物的问题;本专利技术改进了传统的短文本主题模型,提出了基于语义和词扩展的短文本主题模型,该模型针对每条社交发文信息进行主题分析,得到主题分布矩阵,再根据每条发文信息的互动信息计算出该条发文信息的权重矩阵,即该条发文信息的重要程度,最后利用主题分布矩阵和权重矩阵计算出用户的主题分布,相较于现有技术的直接构造伪文档的用户主题分析方法,本专利技术的基于语义和词扩展的社交用户主题分析方法更具优势性。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:
[0007]第一方面,提供了一种基于语义和词扩展的社交用户主题分析方法,包括以下步骤:
[0008]获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息;
[0009]对所述发文信息进行预处理操作,获得发文信息的文本数据;
[0010]根据所述文本数据构建基于语义和词扩展的短文本主题模型;
[0011]将所述发文信息输入所述短文本主题模型进行计算,获得所述发文信息的多个第一主题分布矩阵;
[0012]根据所述互动信息计算用户每条所述发文信息的权重矩阵;
[0013]根据所述权重矩阵对多个所述第一主题分布矩阵进行加权处理,获得多个第二主题分布矩阵;
[0014]对所述多个第二主题分布矩阵进行向量合并和归一化处理,获得用户所述发文信息的主题分布。
[0015]与现有技术相比较而言,本专利技术改进了传统的短文本主题模型,提出了基于语义和词扩展的短文本主题模型,该模型针对每条社交发文信息进行主题分析,得到主题分布矩阵,再根据每条发文信息的互动信息计算出该条发文信息的权重矩阵,即该条发文信息的重要程度,最后利用主题分布矩阵和权重矩阵计算出用户的主题分布,相较于现有技术的直接构造伪文档的用户主题分析方法,本专利技术的基于语义和词扩展的社交用户主题分析方法更具优势性。
[0016]进一步的,所述预处理操作包括对所述发文信息进行分词操作、去除所述发文信息的停用词以及去除所述发文信息中的干扰符号。
[0017]进一步的,所述根据所述文本数据构建基于语义和词扩展的短文本主题模型的步骤如下:
[0018]采用语义依存分析法提取所述文本数据上下文中具有语义关联的第一词对;
[0019]获取所述文本数据的待扩展关键词,将所述待扩展关键词输入外部语料库中,利用点互信息计算所述待扩展关键词与外部词料库中词的相关性。
[0020]进一步的,设定所述相关性的判断阈值,若所得所述相关性大于所述判断阈值,则将待扩展关键词与外部语料库中的词组成第二词对。
[0021]进一步的,对所述多个第二主题分布矩阵内所有的向量进行合并,获得用户的主题分布特征向量,利用softmax函数对所述主题分布特征向量进行归一化处理,获得用户所述发文信息的主题分布。
[0022]第二方面,提供了一种基于语义和词扩展的社交用户主题分析系统,包括:
[0023]信息获取单元,用于获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息;
[0024]预处理单元,用于对所述发文信息进行预处理操作,获得发文信息的文本数据;
[0025]模型构建单元,用于根据所述文本数据构建基于语义和词扩展的短文本主题模型;
[0026]第一计算单元,用于将所述发文信息输入所述短文本主题模型进行计算,获得所述发文信息的多个第一主题分布矩阵;
[0027]第二计算单元,用于根据所述互动信息计算用户每条所述发文信息的权重矩阵;
[0028]加权处理单元,用于根据所述权重矩阵对多个所述第一主题分布矩阵进行加权处理,获得多个第二主题分布矩阵;
[0029]合并处理单元,用于对所述多个第二主题分布矩阵进行向量合并和归一化处理,获得用户所述发文信息的主题分布。
[0030]进一步的,所述预处理单元包括分词单元和去除单元;
[0031]所述分词单元,用于对所述发文信息进行分词操作,所述去除单元,用于去除所述发文信息的停用词以及去除所述发文信息中的干扰符号。
[0032]进一步的,所述模型构建单元包括语义提取单元和词扩展单元;
[0033]所述语义提取单元,用于采用语义依存分析法提取所述文本数据上下文中具有语义关联的第一词对;
[0034]所述词扩展单元,用于获取所述文本数据的待扩展关键词,将所述待扩展关键词输入外部语料库中,利用点互信息计算所述待扩展关键词与外部词料库中词的相关性。
[0035]进一步的,所述词扩展单元还包括判断单元;
[0036]所述判断单元,用于设定所述相关性的判断阈值,若所得所述相关性大于所述判断阈值,则将待扩展关键词与外部语料库中的词组成第二词对。
[0037]进一步的,所述合并处理单元还包括向量合并单元和处理单元;
[0038]所述向量合并单元,用于对所述多个第二主题分布矩阵内所有的向量进行合并,获得用户的主题分布特征向量;
[0039]所述处理单元,用于利用softmax函数对所述主题分布特征向量进行归一化处理,获得用户所述发文信息的主题分布。
[0040]与现有技术相比,本专利技术具有以下有益效果:
[0041]1.本专利技术的分析方法提出了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义和词扩展的社交用户主题分析方法,其特征在于,包括以下步骤:获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息;对所述发文信息进行预处理操作,获得发文信息的文本数据;根据所述文本数据构建基于语义和词扩展的短文本主题模型;将所述发文信息输入所述短文本主题模型进行计算,获得所述发文信息的多个第一主题分布矩阵;根据所述互动信息计算用户每条所述发文信息的权重矩阵;根据所述权重矩阵对多个所述第一主题分布矩阵进行加权处理,获得多个第二主题分布矩阵;对所述多个第二主题分布矩阵进行向量合并和归一化处理,获得用户所述发文信息的主题分布。2.根据权利要求1所述的一种基于语义和词扩展的社交用户主题分析方法,其特征在于,所述预处理操作包括对所述发文信息进行分词操作、去除所述发文信息的停用词以及去除所述发文信息中的干扰符号。3.根据权利要求1所述的一种基于语义和词扩展的社交用户主题分析方法,其特征在于,所述根据所述文本数据构建基于语义和词扩展的短文本主题模型的步骤如下:采用语义依存分析法提取所述文本数据上下文中具有语义关联的第一词对;获取所述文本数据的待扩展关键词,将所述待扩展关键词输入外部语料库中,利用点互信息计算所述待扩展关键词与外部词料库中词的相关性。4.根据权利要求3所述的一种基于语义和词扩展的社交用户主题分析方法,其特征在于,设定所述相关性的判断阈值,若所得所述相关性大于所述判断阈值,则将待扩展关键词与外部语料库中的词组成第二词对。5.根据权利要求1所述的一种基于语义和词扩展的社交用户主题分析方法,其特征在于,对所述多个第二主题分布矩阵内所有的向量进行合并,获得用户的主题分布特征向量,利用softmax函数对所述主题分布特征向量进行归一化处理,获得用户所述发文信息的主题分布。6.一种基于语义和词扩展的社交用户主题分析系统,其特征在于,包括:信息获取单元,用于获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息;预处理单元,用于对所述发文信息...

【专利技术属性】
技术研发人员:李臻邵亚斌夏书银
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1