基于LDA主题模型的直播用户弹幕的话题挖掘方法技术

技术编号：36435885 阅读：22 留言：0更新日期：2023-01-20 22:49

基于LDA主题模型的直播用户弹幕的话题挖掘方法，涉及数据分析技术领域。本发明专利技术利用LDA主题模型挖掘直播用户弹幕互动的不同主题分布，包括以下步骤：S1、获取每场直播的弹幕信息，得到原始数据集；S2、对原始数据集中的弹幕文本进行数据预处理，得到初始数据集；S3、根据初始数据集，构建LDA主题模型；S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布，确定主题数，归纳互动内容。本发明专利技术的方法可以广泛运用在各种直播弹幕中，了解观众的互动内容与用户兴趣。解观众的互动内容与用户兴趣。解观众的互动内容与用户兴趣。

全部详细技术资料下载

【技术实现步骤摘要】
基于LDA主题模型的直播用户弹幕的话题挖掘方法

[0001]本专利技术涉及数据分析
，具体涉及一种基于LDA主题模型的直播用户弹幕的话题挖掘方法。

技术介绍

[0002]直播弹幕是指在当前直播购物环境中，消费者通过直播购物平台提供的在线评论发送系统，分享其关于商家、产品或服务的消费感受与观点。随着信息技术和电子商务的飞速发展，越来越多的人观看直播并通过弹幕与主播互动，主播们也通过自身独特的风格来引领互动，最终促进直播效果。直播中观众通过弹幕表达自身观点并与主播互动已成为潮流和趋势，直播电商领域越来越激烈的竞争也让主播们使用各种互动方法、谈论各种话题来吸引观众。而从关系营销的角度来说，观众如何看待直播，是更偏向于和主播进行情感交流还是更偏向于在直播中更高效的完成购买，或是在这两者之间，观众都会探讨什么主题和信息，也不得而知。目前对此问题的研究更多使用实验法和定性的研究方法，无法对大量的文本数据进行深入的研究。且利用自然语言处理弹幕并研究直播效果的文献相对较少，数据采集的样本也偏少，对文本内容的挖掘也不够充分，令主播难以真实快速地了解到观众互动的重点内容，并对观众的互动的兴趣点无法深入探究。
[0003]通过自然语言处理和机器学习，针对大量文本数据(直播弹幕)迅速提炼核心内容，提炼主播和观众的互动主题，研究主播和观众的互动内容，迅速挖掘直播中存在的互动内容与观众的话题兴趣点，对实现主播与观众的最佳互动，提升沟通效率和直播的沉浸体验，具有显著意义。除了对直播总体互动情况的一般性分析，针对特定直播、特定观众，特...

【技术保护点】

【技术特征摘要】
1.一种基于LDA主题模型的直播用户弹幕的话题挖掘方法，其特征在于：利用LDA主题模型得到不同主题分布，了解直播用户的互动内容，所述方法包括以下步骤：S1、获取每场直播的弹幕信息，得到原始数据集；S2、对原始数据集中的弹幕文本进行数据预处理，得到初始数据集；S3、根据初始数据集，构建LDA主题模型；S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布，确定主题数，归纳互动内容。2.根据权利要求1所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法，其特征在于：所述步骤S2中，对原始数据集中的弹幕文本进行数据预处理的具体步骤如下：S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播；S22、在步骤S21基础上，对原始数据集进行文本分词，得到分词词汇集；S23、根据停用词表收集停用词，去除分词词汇集中的停用词，得到初始数据集。3.根据权利要求1或2所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法，其特征在于：所述步骤S3中，构建LDA主题模型的具体步骤如下：S31、根据初始数据集，确定LDA主题模型的主题数，采用困惑度评价法求得最优主题数K的范围，困惑度计算公式为：其中，M为直播场次，N
i
为第i场直播中出现的词语总数，w
i
为构成第i场直播弹幕的词语，p(w
i
)表示w
i
产生的概率；为了保证聚类效果，得出主题数K为10以内的所有主题数K的困惑度；并依据手肘法，选择困惑度的拐点作为主题数K上限，以主题数K＝1为下限；得到主题数K的范围后，选取最小的主题数K＝1，开始构建LDA主题模型；S32、在先验参数为...

【专利技术属性】
技术研发人员：吴少辉，王洪珑，谢晓东，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人