基于用户评论的情感分析方法、设备、存储介质技术

技术编号:25123260 阅读:46 留言:0更新日期:2020-08-05 02:52
本发明专利技术提供了基于用户评论的情感分析方法、设备、存储介质,包括以下步骤:获取连接智能设备的APP的用户评论文本数据;对所述文本数据预处理,进行文本分词;构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量;利用所述词频向量构建语义网络分析模型,量化所述主题特征词出现的频率,得到文档的主题分布与主题特征词分布,筛选出主题的重要特征词,得到用户关注的设备功能。本发明专利技术通过APP的评论终挖掘用户对智能设备功能的评价和建议,使智能设备功能的开发更具有针对性。

【技术实现步骤摘要】
基于用户评论的情感分析方法、设备、存储介质
本专利技术涉及数据处理领域,尤其涉及基于用户评论的情感分析方法、设备、存储介质。
技术介绍
目前,全屋智能成为互联网行业发展趋势,智能设备终端接入APP,用户能通过APP去直接操作智能终端设备,实现设备“智能化”成为行业趋势。智能设备功能是基于客户的需求,用户可通过智能设备的APP对智能设备的功能进行评论。评论数据不仅可直观反映用户的使用感受及需求,同时也可将用户的感情提取出来,为开发者提供参考价值,对智能设备的改进及同类产品之间的对比提供一个方式。但目前基于智能设备终端接入的APP评论数据去进行数据挖掘的技术并不成熟,开发者较难通过APP评论数据提取出有用的信息,进行改进。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供一种基于用户评论的情感分析方法,通过APP的评论终挖掘用户对智能设备功能的评价和建议,使智能设备功能的开发更具有针对性。本专利技术的目的之二在于提供一种电子设备,执行上述基于用户评论的情感分析方法;本专利技术的目的之三在于提供一种存储介质,执行上述基于用户评论的情感分析方法。本专利技术的目的之一采用如下技术方案实现:基于用户评论的情感分析方法,包括以下步骤:获取连接智能设备的APP的用户评论文本数据;对所述文本数据预处理,进行文本分词;构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量;利用所述词频向量构建语义网络分析模型,得到文档的主题分布与主题特征词分布,量化所述主题特征词出现的频率,筛选出主题的重要特征词,得到用户关注的设备功能。进一步地,通过Bow模型将分词后的文本数据转换为词频向量。进一步地,所述语义网络分析模型为“LDA模型”。进一步地,所述量化所述主题特征词出现的频率为通过Gibbs采样算法对“LDA模型”进行近似估计。进一步地,所述预处理包括文本去重、机械压缩、短句删除。进一步地,通过结巴分词对文本数据进行中文分词。进一步地,通过ROSTCM6软件将所述文本数据分为正负面情感文档。进一步地,获取智能设备APP的用户评论文本数据还包括:筛选所述文本数据,将所述文本数据细化分类。本专利技术的目的之二采用如下技术方案实现:一种设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述基于用户评论的情感分析方法。本专利技术的目的之三采用如下技术方案实现:一种存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述基于用户评论的情感分析方法。相比现有技术,本专利技术的有益效果在于:本专利技术提供了基于用户评论的情感分析方法、设备、存储介质,提取APP的用户评论,分别选取出正负面评论及构建语义网络,分析用户评论数据情感特征,得到不同情感下的主题词及主题特征词,根据主题特征词去分析APP用户的关注点,达到丰富及优化智能设备功能的效果,使设备功能的开发更具有针对性。附图说明图1为本专利技术所提供实施例一的流程示意图;图2为本专利技术所提供实施例二的结构示意图;具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。实施例一如图1所示,本专利技术提供了基于用户评论的情感分析方法,具体包括以下步骤:步骤S1、获取连接智能设备的APP的用户评论文本数据;所述连接智能设备的APP安装于移动终端,可连接若干个智能设备,用户可通过APP对智能设备进行操作与管理。在对相关智能设备的评论数据进行情感分析之前,需要对评论数据进行采集。在本实施例中,通过爬虫工具进行采集。在获取文本数据后,对相关文本进行抽取。本专利技术是对智能设备的有效评价及建议进行情感分析,因此还需要:S11、筛选所述文本数据,将所述文本数据细化分类。考虑到移动终端的APP会接入多种智能设备,用户的评论则会囊括多个设备的评论,对文本数据进行筛选,将文本数据分类,如通过获取智能设备的名称:晾衣机,或功能:烘干、风干、照明,将文本数据细化分类。步骤S2、对所述文本数据预处理,获得文本优化内容;所述预处理包括文本去重、机械压缩和短句删除。在爬虫工具抓取文本数据后,需要对文本数据进行基本的清洗以及预处理操作,将对结果无影响或偏差值较大的评论数据条目滤除掉。在本实施例中,依次对文本数据进行文本去重、机械压缩、短句删除。在APP上存在较多评论是重复或无效的,因此通过判断文本相似度的方法,删除相似度过高的评论。文本去重可以通过编辑距离去重或基于K-Shingling去重等方法,在本申请中,采用阈值较小的编辑距离去重。编辑距离是指两个字符串之间,由一个转成另外一个所需要的最少编辑操作次数。由于评论数据大多为短文本且较多重复,因此在本实施例中阈值为3。机械压缩是将连续累赘重复的语句进行压缩,避免出现多个类似的评论影响结果。而字数过少的评论一般是无效的评论,因此需要将字数过少的评论删除。同时在经过机械压缩后的评论可能长度只有2或3个字符,所以本申请中将字符串小于或等于3的短句都去除。评论中一般使用的是中文,但中文的词没有较为明确的界限划分,甚至出现网络用语、谐音词等情况,因此需要对文本数据进行分词。而在本申请中采用结合指定词典结合结巴分词的方法,对文本数据进行分词。步骤S3、构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量。通过ROSTCM6软件将所述文本数据分为正负面情感文档。通过Bow模型将所述正负面情感文档分词后的文本数据转换为词频向量,即输出所有文档终各个词的词频向量。步骤S4、利用所述词频向量构建语义网络分析模型,得到文档的主题分布与主题特征词分布,量化所述主题特征词出现的频率,筛选出主题的重要特征词,得到用户关注的设备功能。所述语义网络分析模型为“LDA模型”,相当是在句子即字符串的基础上做聚类,将不同的句子聚类为几个主题。在判断文档的数据相关性时需要考虑文本的语义,“LDA模型”则可进行语义挖掘。“LDA模型”得到所述文档的主题分布与主题特征词分布后,通过Gibbs采样算法对“LDA模型”进行近似估计,得到每一篇文档的主题分布与每一个主题特征词的分布,筛选主题的重要特征词,从而分析出用户关注的设备功能特征。本专利技术提取APP的用户评论,分别选取出正负面评论及构建语义网络,分析用户评论数据情感特征,得到不同情感下的主题词及主题特征词,根据主题特征词去分析APP用户的关注点,达到丰富及优化智能设备功能的效果,使设备功能的开发更具有针对性。实施例二如图2所示,一种电子设备,包括存储器、处理器以及存储在存储器中的程序,所述程序被配置成由处理器执行,处理器执行所述程序时实现上述基于用户评论的情感分析本文档来自技高网...

【技术保护点】
1.基于用户评论的情感分析方法,其特征在于,包括以下步骤:/n获取连接智能设备的APP的用户评论文本数据;/n对所述文本数据预处理,进行文本分词;/n构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量;/n利用所述词频向量构建语义网络分析模型,得到文档的主题分布与主题特征词分布,量化主题特征词出现的频率,筛选出主题的重要特征词,得到用户关注的设备功能。/n

【技术特征摘要】
1.基于用户评论的情感分析方法,其特征在于,包括以下步骤:
获取连接智能设备的APP的用户评论文本数据;
对所述文本数据预处理,进行文本分词;
构建情感倾向分析模型,将所述文本数据分为正负面情感文档,输出分词后的词频向量;
利用所述词频向量构建语义网络分析模型,得到文档的主题分布与主题特征词分布,量化主题特征词出现的频率,筛选出主题的重要特征词,得到用户关注的设备功能。


2.如权利要求1所述的基于用户评论的情感分析方法,其特征在于,通过Bow模型将分词后的文本数据转换为词频向量。


3.如权利要求1所述的基于用户评论的情感分析方法,其特征在于,所述语义网络分析模型为“LDA模型”。


4.如权利要求3所述的基于用户评论的情感分析方法,其特征在于,所述量化主题特征词出现的频率为通过Gibbs采样算法对“LDA模型”进行近似估计。


5.如权利要求1所述的基于用户评论...

【专利技术属性】
技术研发人员:沈汉标王妙玉童威云吴宁泉周如梦
申请(专利权)人:广东科徕尼智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1