一种基于大数据的汽车行业用户观点情感分类方法技术

技术编号:21714515 阅读:48 留言:0更新日期:2019-07-27 19:14
本发明专利技术请求保护一种基于大数据的汽车行业用户观点情感分类方法,包括101对数据进行预处理操作;102对数据进行特征工程构建操作;103建立多个机器学习模型包括LightGBM、随机森林、Catboost模型,并进行模型融合操作;104通过已建立的模型,根据文本内容、主题、情感分析等数据了解消费者。本发明专利技术主要是通过对文本内容、主题、情感分析等数据进行预处理、Jieba分词和分析数据提取特征,建立多个机器学习模型,从而预测汽车行业用户的情感,使得汽车厂商获得快速、准确的方式来了解消费者需求,使得汽车厂商能够根据消费者对汽车的情感对汽车做最有效的改进。

A Classification Method of User's Views and Emotions in Automobile Industry Based on Big Data

【技术实现步骤摘要】
一种基于大数据的汽车行业用户观点情感分类方法
本专利技术属于机器学习、自然语言处理、大数据处理
,尤其基于多模型融合汽车行业用户观点情感分类算法。
技术介绍
随着政府对新能源汽车的大力扶植以及智能联网汽车兴起都预示着未来几年汽车行业的多元化发展及转变。汽车厂商需要了解自身产品是否能够满足消费者的需求,但传统的调研手段因为样本量小、效率低等缺陷已经无法满足当前快速发展的市场环境。因此,汽车厂商需要一种快速、准确的方式来了解消费者需求。当前对文本提取特征的主流技术为TF-IDF,其中TF-IDF的优点是简单快速,缺点是单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。本专利技术基于char-level或word-level以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建,其中特征哈希法的目标是把原始的高维特征向量压缩成较低维特征向量,且尽量不损失原始特征的表达能力。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种,使得汽车厂商获得快速、准确的方式来了解消费者需求的基于大数据的汽车行业用户观点情感分类方法。本专利技术的技术方案如下:一种基于大数据的汽车行业用户观点情感分类方法,其包括以下步骤:101、获取汽车论坛评论数据,并对汽车论坛评论数据进行包括文字匹配替换异常值、在内的预处理操作;102、对预处理后的汽车论坛评论数据进行特征工程构建操作,即基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建;103、根据特征工程构建的结果建立包括LightGBM、随机森林、Catboost模型在内的机器学习模型,并采用线性加权进行模型融合操作;104、通过步骤103已建立的模型,根据文本内容、主题、情感分析在内的数据输入到模型中预测得出消费者意图,正确的了解消费者的需求。进一步的,所述步骤101对数据进行预处理操作,具体包括:数据为用户在汽车论坛中对汽车相关内容的讨论或评价的数据的处理,进行如下处理:文字匹配替换异常值:原始数据存在部分错别字,利用新华词典数据集构建文字词典,根据构建的词典,对原始数据做最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典,若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止;最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语,对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误,利用正则表达式对原始数据做关于文字词典的正则表达式,得到每个原始数据的匹配次数,对出现0次的原始数据继续做最大正向匹配,直到正则表达式字符串出现次数全部大于等于1时匹配结束。进一步的,所述步骤102对预处理后的汽车论坛评论数据进行特征工程构建操作,即基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建,具体包括:对预处理后的数据根据word和char两类用于抽取预处理后文件的特征序列,再将对特征序列中的词语转换为词频矩阵,首先过滤低频出现词语即出现次数小于10次的词语,对处理后的数据构建哈希表,其中每个哈希表都用一个哈希函数来实现键-值对的映射,构建哈希表时利用词袋模型,即利用去重后所有的字构造索引表,这样可以得到每个词语对应不同的词向量,对数据进行jieba分词后,根据索引表得到各个词语的向量。进一步的,所述步骤103建立多个机器学习模型,并进行模型融合操作,利用构造的词向量分别训练LightGBM、随机森林、Catboost模型,具体包括:构建LightGBM、随机森林、Catboost模型后采用5折交叉验证,首先为了保证结果分布均衡把数据随机分为5组,将4组数据作为训练集训练出一个模型,然后将剩下的一组数据作为测试集,利用这5个模型最终的平均正确率来衡量模型的正确率,分别为LightGBM、随机森林、Catboost模型进行训练集五折交叉验证的预测结果,线性模型融合拟合验证集真实标签,根据三个模型拟合效果分别给定权重值,LightGBM、随机森林、Catboost模型的权值分别为0.4、0.2、0.4,对训练好的模型带入测试集数据,并对三个模型分别得到的结果带入给定权重做线性融合得到最终预测结果,Y=x1*w1+x2*w2+x3*w3进一步的,所述步骤104通过已建立的模型,根据文本内容、主题、情感分析数据了解消费者。具体包括:根据102得到的特征数据作为样本输入到模型中进行预测,得到最终消费者情感概率值,选择当前用户所在的情感概率最大情感作为最终预测结果反馈给汽车厂商,从而使汽车厂商获得快速、准确的方式来了解消费者对产品情感是中立、正向或者负向。本专利技术的优点及有益效果如下:本专利技术基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建,本专利技术在对文本列数据处理后使用特征哈希将文本转换成实数向量,为避免特征哈希产生较小的散列影响准确性,再对特征哈希后的实数向量做卡方检验筛选,减少噪音特征。附图说明图1是本专利技术优选实施例提供的一种基于大数据的汽车行业用户观点情感分类方法的流程图;图2为本专利技术实例一提供的一种基于大数据的汽车行业用户观点情感分类方法的LightGBM、随机森林、Catboost模型的流程图;图3为本专利技术实例一提供的一种基于大数据的汽车行业用户观点情感分类方法的五折交叉验证图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术解决上述技术问题的技术方案是:实施例一参考图1,图1为本专利技术实施例一提供的一种基于大数据的汽车行业用户观点情感分类方法的流程图,具体包括:101.收集用户在汽车论坛中对汽车相关内容的讨论或评价数据包括,数据ID、文本内容、主题、情感分析、情感词。表1训练数据数据预处理包括用户在用户在汽车论坛中对汽车相关内容的讨论或评价内容的数据的处理,根据数据表的描述以及物理理解进行如下处理:①文字匹配替换异常值原始数据存在部分错别字,利用新华词典数据集构建文字词典根据词典进行最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止;最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语,对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误,提高精度减少匹配错误;102.对数据进行特征工程构本文档来自技高网...

【技术保护点】
1.一种基于大数据的汽车行业用户观点情感分类方法,其特征在于,包括以下步骤:101、获取汽车论坛评论数据,并对汽车论坛评论数据进行包括文字匹配替换异常值、在内的预处理操作;102、对预处理后的汽车论坛评论数据进行特征工程构建操作,即基于char‑level或word‑level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建;103、根据特征工程构建的结果建立包括LightGBM、随机森林、Catboost模型在内的机器学习模型,并采用线性加权进行模型融合操作;104、通过步骤103已建立的模型,根据文本内容、主题、情感分析在内的数据输入到模型中预测得出消费者意图,正确的了解消费者的需求。

【技术特征摘要】
1.一种基于大数据的汽车行业用户观点情感分类方法,其特征在于,包括以下步骤:101、获取汽车论坛评论数据,并对汽车论坛评论数据进行包括文字匹配替换异常值、在内的预处理操作;102、对预处理后的汽车论坛评论数据进行特征工程构建操作,即基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建;103、根据特征工程构建的结果建立包括LightGBM、随机森林、Catboost模型在内的机器学习模型,并采用线性加权进行模型融合操作;104、通过步骤103已建立的模型,根据文本内容、主题、情感分析在内的数据输入到模型中预测得出消费者意图,正确的了解消费者的需求。2.根据权利要求1所述的基于大数据的汽车行业用户观点情感分类方法,其特征在于,所述步骤101对数据进行预处理操作,具体包括:数据为用户在汽车论坛中对汽车相关内容的讨论或评价的数据的处理,进行如下处理:文字匹配替换异常值:原始数据存在部分错别字,利用新华词典数据集构建文字词典,根据构建的词典,对原始数据做最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典,若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止;最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语,对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误,利用正则表达式对原始数据做关于文字词典的正则表达式,得到每个原始数据的匹配次数,对出现0次的原始数据继续做最大正向匹配,直到正则表达式字符串出现次数全部大于等于1时匹配结束。3.根据权利要求1所述的基于大数据的汽车行业用户观点情感分类方法,其特征在于,所述步骤102对预处理后的汽车论坛评论数据进行特征工程构建操...

【专利技术属性】
技术研发人员:王进李颖许景益孙开伟刘彬邓欣
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1