基于LDA主题模型的直播用户弹幕的话题挖掘方法技术

技术编号:36435885 阅读:13 留言:0更新日期:2023-01-20 22:49
基于LDA主题模型的直播用户弹幕的话题挖掘方法,涉及数据分析技术领域。本发明专利技术利用LDA主题模型挖掘直播用户弹幕互动的不同主题分布,包括以下步骤:S1、获取每场直播的弹幕信息,得到原始数据集;S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布,确定主题数,归纳互动内容。本发明专利技术的方法可以广泛运用在各种直播弹幕中,了解观众的互动内容与用户兴趣。解观众的互动内容与用户兴趣。解观众的互动内容与用户兴趣。

【技术实现步骤摘要】
基于LDA主题模型的直播用户弹幕的话题挖掘方法


[0001]本专利技术涉及数据分析
,具体涉及一种基于LDA主题模型的直播用户弹幕的话题挖掘方法。

技术介绍

[0002]直播弹幕是指在当前直播购物环境中,消费者通过直播购物平台提供的在线评论发送系统,分享其关于商家、产品或服务的消费感受与观点。随着信息技术和电子商务的飞速发展,越来越多的人观看直播并通过弹幕与主播互动,主播们也通过自身独特的风格来引领互动,最终促进直播效果。直播中观众通过弹幕表达自身观点并与主播互动已成为潮流和趋势,直播电商领域越来越激烈的竞争也让主播们使用各种互动方法、谈论各种话题来吸引观众。而从关系营销的角度来说,观众如何看待直播,是更偏向于和主播进行情感交流还是更偏向于在直播中更高效的完成购买,或是在这两者之间,观众都会探讨什么主题和信息,也不得而知。目前对此问题的研究更多使用实验法和定性的研究方法,无法对大量的文本数据进行深入的研究。且利用自然语言处理弹幕并研究直播效果的文献相对较少,数据采集的样本也偏少,对文本内容的挖掘也不够充分,令主播难以真实快速地了解到观众互动的重点内容,并对观众的互动的兴趣点无法深入探究。
[0003]通过自然语言处理和机器学习,针对大量文本数据(直播弹幕)迅速提炼核心内容,提炼主播和观众的互动主题,研究主播和观众的互动内容,迅速挖掘直播中存在的互动内容与观众的话题兴趣点,对实现主播与观众的最佳互动,提升沟通效率和直播的沉浸体验,具有显著意义。除了对直播总体互动情况的一般性分析,针对特定直播、特定观众,特征性信息提取和互动内容分析也同样重要。基于每个主播的具体情况,精细的探究该主播和其观众的互动内容,得到独特主题,把握观众兴趣,也是每个主播所渴望进行的,却难以高效深入探究的问题。

技术实现思路

[0004]本专利技术为解决现有技术存在的上述问题,提供一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,能够对直播互动内容和效果进行分析评价。
[0005]实现上述目的,本专利技术采取的技术方案如下:
[0006]基于LDA主题模型的直播用户弹幕的话题挖掘方法,利用LDA主题模型得到不同主题分布,了解直播用户的互动内容,所述方法包括以下步骤:
[0007]S1、获取每场直播的弹幕信息,得到原始数据集;
[0008]S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;
[0009]S3、根据初始数据集,构建LDA主题模型;
[0010]S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布,确定主题数,归纳互动内容。
[0011]进一步的是,所述步骤S2中,对原始数据集中的弹幕文本进行数据预处理的具体
步骤如下:
[0012]S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播;
[0013]S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
[0014]S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
[0015]进一步的是,所述步骤S3中,构建LDA主题模型的具体步骤如下:
[0016]S31、根据初始数据集,确定LDA主题模型的主题数,采用困惑度评价法求得最优主题数K的范围,困惑度计算公式为:
[0017][0018]其中,M为直播场次,N
i
为第i场直播中出现的词语总数,w
i
为构成第i场直播弹幕的词语,p(w
i
)表示w
i
产生的概率;
[0019]为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为主题数K上限,以主题数K=1为下限;
[0020]得到主题数K的范围后,选取最小的主题数K=1,开始构建LDA主题模型;
[0021]S32、在先验参数为α和β的狄利克雷分布中,抽样生成每场直播的主题分布θ和所有直播的主题词分布
[0022]α具体表示为每场直播在主题上的分布的狄利克雷先验参数;
[0023]β具体表示为所有直播的主题词分布的狄利克雷先验参数;
[0024]S33、从每场直播的主题分布θ中,抽样生成每场直播的主题Z,LDA主题模型假设每场直播的弹幕都是由不同比例的词语组合组成的,反映了每场直播的独特的主题,组合比例服从多项式分布,表示为:
[0025]Z|θ=Multinomial(θ)
[0026]从所有直播的主题词分布中,抽样生成主题词W,每个主题都是由弹幕中的词语组成的,组合比例也服从多项式分布,表示为:
[0027][0028]其中,第i场直播中计算词语w
i
概率分布的计算公式为:
[0029][0030]P(w
i
|z=s)表示词语w
i
属于第s个主题的概率;P(z=s|i)表示第i场直播中第s个主题的概率,K为主题数;
[0031]S34、依据主题数K的范围,在每个主题数K下,重复S32至S33的步骤,构建LDA主题模型。
[0032]进一步的是,所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词,具体步骤是:
[0033]S41、LDA主题模型结果含有每个主题k下的高频词,以及每场直播的主题分布,分析不同主题数K下,每个主题k的前10个高频词,依据关系营销理论对每个主题k进行定义与
解释;若某个主题数K中每个主题k都可依据关系营销理论,从情感或产品的角度进行解释和定义,则该主题数K为最佳主题数,选定该主题下的高频词和每场直播的主题分布的结果作为LDA主题模型分析的最终结果,并依据主题的分类及每个主题k下的主题词进行观众的偏好分析。
[0034]与现有技术相比,本专利技术的有益效果是:本专利技术提出了一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,其首先运用LDA模型挖掘直播用户的弹幕,即互动内容,以此为语料库展开分析,并提取出高频特征词。该方法使用的LDA主题模型是一种无监督模型,仅需要弹幕数据作为语料并且指定主题数量,无须标签即可完成训练,易于实现;依据关系营销理论分析相关的结果,本方法能明确主播和观众间的互动模式:交易型互动和关系型互动,弥补了现有基于关系营销的分析方法的不足,可以快速、高效、精确的对两类互动内容展开分析;本专利技术中,LDA模型能够依据弹幕将以往每场直播匹配到最相关的主题,即在每场直播中的互动模式的概率分布,依据该场直播的效果每位主播可以了解观众的互动偏好,深入理解直播电商与观众社会互动的内在模式,并为进一步地探索不同模式下的社会互动对于主播直播业绩的影响打好基础,为直播间的主播提供有效的支撑服务。本专利技术具有识别速度快、准确率高且易于实现等特点,成功为直播弹幕的语义解析提供了可靠的保障,可广泛用于直播效果分析从而为主播提供建议。本专利技术的方法解决了现有对于文本分类的方法忽略文本信息的上下文关系的问题,通过将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,其特征在于:利用LDA主题模型得到不同主题分布,了解直播用户的互动内容,所述方法包括以下步骤:S1、获取每场直播的弹幕信息,得到原始数据集;S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布,确定主题数,归纳互动内容。2.根据权利要求1所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法,其特征在于:所述步骤S2中,对原始数据集中的弹幕文本进行数据预处理的具体步骤如下:S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播;S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。3.根据权利要求1或2所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法,其特征在于:所述步骤S3中,构建LDA主题模型的具体步骤如下:S31、根据初始数据集,确定LDA主题模型的主题数,采用困惑度评价法求得最优主题数K的范围,困惑度计算公式为:其中,M为直播场次,N
i
为第i场直播中出现的词语总数,w
i
为构成第i场直播弹幕的词语,p(w
i
)表示w
i
产生的概率;为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为主题数K上限,以主题数K=1为下限;得到主题数K的范围后,选取最小的主题数K=1,开始构建LDA主题模型;S32、在先验参数为...

【专利技术属性】
技术研发人员:吴少辉王洪珑谢晓东
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1