基于文本分析的消费者评论中商品属性特征词的提取方法技术

技术编号:14244111 阅读:100 留言:0更新日期:2016-12-21 23:38
本发明专利技术公开了一种基于文本分析的消费者评论中商品属性特征词的提取方法,包括:确定目标商品,并获取目标商品的评论数据;对所述评论数据进行预处理;从预处理后的评论数据中获取词性序列样本;利用所述词性序列样本匹配所有评论数据,根据词性序列样本的形式化表述模型中特征词的位置从评论数据中提取特征词,并记录每个特征词的频率,所有特征词构成特征词预选集合;对特征词预选集合进行预处理;统计特征词预选集合中任意两个特征词的相似度,并对相似度大于阈值的两个特征词进行合并。本发明专利技术采用基于信息量的语义相似度合并相似特征词,去除冗余特征词,减少了对特征词进行分析的数据量。

【技术实现步骤摘要】

本专利技术涉及信息处理的
,特别是涉及一种基于文本分析的消费者评论中商品属性特征词的提取方法
技术介绍
互联网和信息技术的发展为普通消费者在线分享商品消费体验提供了机会,由此产生的大量评论数据对于平台分析市场、获取用户评价态度、以及为用户进行推荐提供了良好的机会,对于消费者获得其他用户对商品的态度可以更好的辅助其做好购买决策,而从商品评论数据中提取属性特征词是进行数据挖掘的重要步骤。从商品评论数据中提取出的属性特征词的好坏,对平台和用户的影响都极大,好的特征词可以让平台了解用户关注的商品的特性,提升或保持商品的相应特性,提高销售量,也可以让用户了解自己所关注的商品特性的真实情况。目前,商品评论数据中特征词抽取的方法已经有很多,主要分为两大类:基于规则的特征抽取和基于概率的特征抽取。如基于语法规则扩展的词性模板匹配法、基于词语序列标注的隐马尔科夫以及条件随机场,这些都是初步提取评论数据中的特征词。研究发现,由于受消费者受教育程度、文化背景、语言风格的影响,对于同一种商品的同一种属性,也会存在描述上的差距,但是总体语义是相近的,如果仅采用基于规则的匹配方法对特征词进行提取,提取出的特征词将会出现冗余现象。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于文本分析的消费者评论中商品属性特征词的提取方法,采用基于信息量的语义相似度合并相似特征词,去除冗余特征词,减少了对特征词进行分析的数据量。本专利技术的目的是通过以下技术方案来实现的:基于文本分析的消费者评论中商品属性特征词的提取方法,包括:确定目标商品,并获取目标商品的评论数据;对所述评论数据进行预处理;从预处理后的评论数据中获取词性序列样本;利用所述词性序列样本匹配所有评论数据,根据词性序列样本的形式化表述模型中特征词的位置从评论数据中提取特征词,并记录每个特征词的频率,所有特征词构成特征词预选集合;统计特征词预选集合中任意两个特征词的相似度,并对相似度大于阈值的两个特征词进行合并。目标商品的评论数据的获取方法为:采用爬虫算法从预设网站上爬取目标商品的评论数据。评论数据的预处理方法为:将每条评论数据根据标点符号分为多个语句;将所述语句切分为多个单独的词语;为每个单独的词语标注词性。评论数据的预处理方法还包括,去除停用词。获取词性序列样本的方法为:定义包含商品属性特征词的商品评论语句为特征句,选取进行预处理后的特征句作为词性序列样本;词性序列样本的形式化表述模型为:(BF3,BF2,BF1,featurei,AF1,AF2,AF3,Pos:i)式中:featurei—特征词,BFi—特征词前的第i个词,AFi—特征词后的第i个词,Pos—特征词在该特征句中的位置。进一步的,还包括对特征词预选集合进行预处理的步骤:判断特征词预选集合中的特征词是否符合预设规则,若符合,则保留该特征词,否则删除该特征词。所述预设规则为:词语的长度小于等于四个字,词语的频率在预设范围内。统计特征词预选集合中各特征词的相似度的方法为:对特征词预选集合中的每个特征词进行基于HowNet的信息量的计算,并计算特征词预选集合中任意两个特征词的相似度。特征词进行合并的方法为:将相似度大于阈值的两个特征词合并为一个特征词,该特征词为所述两个特征词中频率较大的特征词。本专利技术的有益效果是:本专利技术采用基于信息量的语义相似度合并相似特征词,去除冗余特征词,减少了对特征词进行分析的数据量。附图说明图1为本专利技术的一个实施例的流程图。具体实施方式下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。如图1所示,基于文本分析的消费者评论中商品属性特征词的提取方法,包括以下步骤:步骤一、确定目标商品,并获取目标商品的评论数据。目标商品的评论数据的获取方法为:采用爬虫算法从预设网站上爬取目标商品的评论数据。步骤二、对所述评论数据进行预处理。评论数据的预处理方法为:将每条评论数据根据标点符号分为多个语句;分词:将所述语句切分为多个单独的词语;词性标注:为每个单独的词语标注词性。分词是指将一个句子切分成一个一个单独的词语,就是将连续的字序列按照一定的规范重新组合成词序列;词性标注是指为分词结果的每个词语标注一个正确的词性,也即确定每个词是名词、动词、形容词或其他词性的过程。评论数据的预处理方法还包括,去除停用词,停用词是指在句子中没有什么实际含义的词,如各类代词,数字、数学符号等。本专利技术中可以采用开源工具HanLp或分词系统NLPIR对评论数据进行预处理。例如,评论:“手机手感不错,音质好,充电速度快”用HanLp进行预处理后的文本为:“手机/n手感/n不错/a音质/n好/a充电/v速度/n快/a”。其中n代表名词,a代表形容词,v代表动词,d代表副词,词性符号除了采用HanLp中定义的的标注集之外,可以根据需要额外添加部分自定义词。步骤三、从预处理后的评论数据中获取词性序列样本。获取词性序列样本的方法为:定义包含商品属性特征词的商品评论语句为特征句,选取进行预处理后的特征句作为词性序列样本;词性序列样本的形式化表述模型为:(BF3,BF2,BF1,featurei,AF1,AF2,AF3,Pos:i)式中:featurei—特征词,BFi—特征词前的第i个词,AFi—特征词后的第i个词,Pos—特征词在该特征句中的位置。步骤四、利用所述词性序列样本匹配所有评论数据,根据词性序列样本的形式化表述模型中特征词的位置从评论数据中提取特征词,并记录每个特征词的频率,所有特征词构成特征词预选集合。步骤五、对特征词预选集合进行预处理:判断特征词预选集合中的特征词是否符合预设规则,若符合,则保留该特征词,否则删除该特征词;即,将符合预设规则的特征词保留在特征词预选集合中,删除特征词预选集合中不符合预设规则的特征词。预设规则为:词语的长度小于等于四个字,词语的频率在预设范围内。步骤六、统计特征词预选集合中任意两个特征词的相似度,并对相似度大于阈值的两个特征词进行合并。统计特征词预选集合中各特征词的相似度的方法为:对特征词预选集合中的每个特征词进行基于HowNet的信息量的计算,并计算特征词预选集合中任意两个特征词的相似度。特征词进行合并的方法为:将相似度大于阈值的两个特征词合并为一个特征词,该特征词为所述两个特征词中频率较大的特征词。实施例一从某电商网站的某手机的评论文本中选择如下几条评论进行分析:A、“手机手感不错,音质好,充电速度快,和闺蜜买的一样”。B、“手机像素很好,指纹解锁超快,质量也不错”。C、“手机屏幕够大,像素高,性能好,客服态度超好,超级喜欢,下次买手机还来这家”。D、“使用了一段时间了,屏幕大小合适,手感不错,耳机音质很好,音量够大,很不错,电池很耐用”。E、“物流很快,手机屏合适,清晰度很满意,像素高,客服很好”。将每条评论按照标点符号分为多个句子,并利用HanLp进行数据预处理,如:“手机/n像素/n很好/a指纹/n解锁/v超/d快/a质量/n也/d不错/a”,其中n代表名词,a代表形容词,v代表动词,d代表副词。对于HanLp进行预处理的使用简介如下:import com.hankcs.hanlp.tokenizer本文档来自技高网...
基于文本分析的消费者评论中商品属性特征词的提取方法

【技术保护点】
基于文本分析的消费者评论中商品属性特征词的提取方法,其特征在于:包括:确定目标商品,并获取目标商品的评论数据;对所述评论数据进行预处理;从预处理后的评论数据中获取词性序列样本;利用所述词性序列样本匹配所有评论数据,根据词性序列样本的形式化表述模型中特征词的位置从评论数据中提取特征词,并记录每个特征词的频率,所有特征词构成特征词预选集合;统计特征词预选集合中任意两个特征词的相似度,并对相似度大于阈值的两个特征词进行合并。

【技术特征摘要】
1.基于文本分析的消费者评论中商品属性特征词的提取方法,其特征在于:包括:确定目标商品,并获取目标商品的评论数据;对所述评论数据进行预处理;从预处理后的评论数据中获取词性序列样本;利用所述词性序列样本匹配所有评论数据,根据词性序列样本的形式化表述模型中特征词的位置从评论数据中提取特征词,并记录每个特征词的频率,所有特征词构成特征词预选集合;统计特征词预选集合中任意两个特征词的相似度,并对相似度大于阈值的两个特征词进行合并。2.根据权利要求1所述的基于文本分析的消费者评论中商品属性特征词的提取方法,其特征在于:目标商品的评论数据的获取方法为:采用爬虫算法从预设网站上爬取目标商品的评论数据。3.根据权利要求1所述的基于文本分析的消费者评论中商品属性特征词的提取方法,其特征在于:评论数据的预处理方法为:将每条评论数据根据标点符号分为多个语句;将所述语句切分为多个单独的词语;为每个单独的词语标注词性。4.根据权利要求3所述的基于文本分析的消费者评论中商品属性特征词的提取方法,其特征在于:评论数据的预处理方法还包括,去除停用词。5.根据权利要求1所述的基于文本分析的消费者评论中商品属性特征词的提取方法,其特征在于:获取词性序列样本的方法为:定义包含商品属性特征词的商品评论语句为特征句,...

【专利技术属性】
技术研发人员:陈峥张婷梁恒张永生
申请(专利权)人:成都德迈安科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1