基于文本分析的消费者评论中商品属性特征词的提取方法技术

技术编号：14244111 阅读：119 留言：0更新日期：2016-12-21 23:38

本发明专利技术公开了一种基于文本分析的消费者评论中商品属性特征词的提取方法，包括：确定目标商品，并获取目标商品的评论数据；对所述评论数据进行预处理；从预处理后的评论数据中获取词性序列样本；利用所述词性序列样本匹配所有评论数据，根据词性序列样本的形式化表述模型中特征词的位置从评论数据中提取特征词，并记录每个特征词的频率，所有特征词构成特征词预选集合；对特征词预选集合进行预处理；统计特征词预选集合中任意两个特征词的相似度，并对相似度大于阈值的两个特征词进行合并。本发明专利技术采用基于信息量的语义相似度合并相似特征词，去除冗余特征词，减少了对特征词进行分析的数据量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理的
，特别是涉及一种基于文本分析的消费者评论中商品属性特征词的提取方法。
技术介绍
互联网和信息技术的发展为普通消费者在线分享商品消费体验提供了机会，由此产生的大量评论数据对于平台分析市场、获取用户评价态度、以及为用户进行推荐提供了良好的机会，对于消费者获得其他用户对商品的态度可以更好的辅助其做好购买决策，而从商品评论数据中提取属性特征词是进行数据挖掘的重要步骤。从商品评论数据中提取出的属性特征词的好坏，对平台和用户的影响都极大，好的特征词可以让平台了解用户关注的商品的特性，提升或保持商品的相应特性，提高销售量，也可以让用户了解自己所关注的商品特性的真实情况。目前，商品评论数据中特征词抽取的方法已经有很多，主要分为两大类：基于规则的特征抽取和基于概率的特征抽取。如基于语法规则扩展的词性模板匹配法、基于词语序列标注的隐马尔科夫以及条件随机场，这些都是初步提取评论数据中的特征词。研究发现，由于受消费者受教育程度、文化背景、语言风格的影响，对于同一种商品的同一种属性，也会存在描述上的差距，但是总体语义是相近的，如果仅采用基于规则的匹配方法对特征词进行提取，提取出的特征词将会出现冗余现象。
技术实现思路
本专利技术的目的在于克服现有技术的不足，提供一种基于文本分析的消费者评论中商品属性特征词的提取方法，采用基于信息量的语义相似度合并相似特征词，去除冗余特征词，减少了对特征词进行分析的数据量。本专利技术的目的是通过以下技术方案来实现的：基于文本分析的消费者评论中商品属性特征词的提取方法，包括：确定目标商品，并获取目标商品的评论数据；对所述评...

【技术保护点】
基于文本分析的消费者评论中商品属性特征词的提取方法，其特征在于：包括：确定目标商品，并获取目标商品的评论数据；对所述评论数据进行预处理；从预处理后的评论数据中获取词性序列样本；利用所述词性序列样本匹配所有评论数据，根据词性序列样本的形式化表述模型中特征词的位置从评论数据中提取特征词，并记录每个特征词的频率，所有特征词构成特征词预选集合；统计特征词预选集合中任意两个特征词的相似度，并对相似度大于阈值的两个特征词进行合并。

【技术特征摘要】
1.基于文本分析的消费者评论中商品属性特征词的提取方法，其特征在于：包括：确定目标商品，并获取目标商品的评论数据；对所述评论数据进行预处理；从预处理后的评论数据中获取词性序列样本；利用所述词性序列样本匹配所有评论数据，根据词性序列样本的形式化表述模型中特征词的位置从评论数据中提取特征词，并记录每个特征词的频率，所有特征词构成特征词预选集合；统计特征词预选集合中任意两个特征词的相似度，并对相似度大于阈值的两个特征词进行合并。2.根据权利要求1所述的基于文本分析的消费者评论中商品属性特征词的提取方法，其特征在于：目标商品的评论数据的获取方法为：采用爬虫算法从预设网站上爬取目标商品的评论数据。3.根据权利要求1所述的基于文本分析的消费者评论中商品属性特征词的提取方法，其特征在于：评论数据的预处理方法为：将每条评论数据根据标点符号分为多个语句；将所述语句切分为多个单独的词语；为每个单独的词语标注词性。4.根据权利要求3所述的基于文本分析的消费者评论中商品属性特征词的提取方法，其特征在于：评论数据的预处理方法还包括，去除停用词。5.根据权利要求1所述的基于文本分析的消费者评论中商品属性特征词的提取方法，其特征在于：获取词性序列样本的方法为：定义包含商品属性特征词的商品评论语句为特征句，...

【专利技术属性】
技术研发人员：陈峥，张婷，梁恒，张永生，
申请(专利权)人：成都德迈安科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人