A restaurant score prediction method based on multiple linear regression model belongs to the field of data mining. Through the analysis of the user's evaluation, the content of the text, the length of the evaluation, the emotional value of the evaluation, the current average star of the restaurant and the characteristics of the user, the feature values based on the above analysis are extracted. Using multiple linear regression model, we get the relationship between each feature and the star given by the last user. The method of the invention is to select a feature according to a data set, and establish a prediction model by using a linear regression method. The evaluation of the evaluation content, evaluation of text length, evaluation of the emotional value, the current average star restaurant, the evaluation of the characteristics of the analysis, the relationship between various factors and the final evaluation of star people are given, which can be speculated that there has not been a star may obtain the star restaurant.
【技术实现步骤摘要】
一种基于多元线性回归模型的餐馆评分预测方法
本专利技术涉及数据挖掘与数据分析技术,特别是涉及一种基于多元线性回归模型的餐馆评分预测方法。
技术介绍
星级是对餐馆的综合评价,餐馆的星级很大程度依赖于评价人对餐馆的主观评价。因此通过对评价文本的分析来预测评价人将要给出的星级,通过对评价人的评价文本内容、评价的长度、评价的情感值、餐馆当前的平均星级、评价人的特点等因素的分析,从而得到各个因素与最后评价人给出的星级之间的关系。线性回归算法是数据挖掘领域中比较重要的算法,它通过给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;xi2;...;xid),试图得到一个线性模型以尽可能准确地预测实值输出标记。随着数据量的急剧增加,在UGC(UserGeneratedContent用户原创内容)网站上用户留下的评论和其他客观条件,这些数据作为构成了UGC的评分基础,借助这些数据,我们可以对餐馆星级做出预测,一般我们可以采取线性回归的方法。简单线性回归法是用来度量一个自变量对因变量的影响程度的。
技术实现思路
为了克服现有的餐馆评分预测方式的可靠性较差的不足,本专利技术提出了一种基于多元线性回归模型的餐馆评分预测方法。UGC类网站上,用户会通过自身的体验对商户进行评分与评价。而每个用户在评分后会给出评论。每个用户的评论文字的长短,所附加的情感,餐馆当前的星级以及用户自身的特点都影响了用户会给出的评分情况。用户最终给出的评分与其写的评论有直接的关系,所以通过分析其评论的各个特点可以一定程度上预测评分(或者说星级)。该方法通过餐馆网站中选取 ...
【技术保护点】
一种基于线性回归的餐馆星级评价方法,其特征在于:包括以下步骤:S1:从餐饮网站上抓取数据,并对数据进行分析,最后获得三个相关的数据表,分别是user、business、review这三张表;S2:在review表中提取相关的用户评论数据,分析评论文本的语义极性和主观性,所述语义极性包括褒义、中性或者贬义;S3:在网站提供的特征和语义分析获得的主观性和极性中,同时考虑用户和餐馆对评分预测的影响,选择需要的特征变量;S4:把相关的数据表导入数据库中,用SQL语句获得我们选择的特征变量的数据集,并将数据集分成若干个更小的数据集;S5:对于获得的数据,进行克伦巴赫系数均衡数据的置信度分析,得到可信度较高的数据作为分析的数据样本,选取alpha系数大于预设阈值的数据集,若不存在这样的数据集转移到S3;S6:构造理论模型,设定各个自变量与因变量之间的关系是线性的,从而建立多元线性回归模型,借助工具进行多元线性回归处理得到数据;S7:对模型进行检验,一个指标是拟合度,设定拟合阈值为拟合程度很高,第二个指标为DW检验,通过T显著性指标大于指标阈值,对设置的指标进行筛选,获得回归方程,否则如果无法获得我 ...
【技术特征摘要】
1.一种基于线性回归的餐馆星级评价方法,其特征在于:包括以下步骤:S1:从餐饮网站上抓取数据,并对数据进行分析,最后获得三个相关的数据表,分别是user、business、review这三张表;S2:在review表中提取相关的用户评论数据,分析评论文本的语义极性和主观性,所述语义极性包括褒义、中性或者贬义;S3:在网站提供的特征和语义分析获得的主观性和极性中,同时考虑用户和餐馆对评分预测的影响,选择需要的特征变量;S4:把相关的数据表导入数据库中,用SQL语句获得我们选择的特征变量的数据集,并将数据集分成若干个更小的数据集;S5:对于获得的数据,进行克伦巴赫系数均衡数据的置信度分析,得到可信度较高的数据作为分析的数据样本,选取alpha系数大于预设阈值的数据集,若不存在这样的数据集转移到S3;S6:构造理论模型,设定各个自变量与因变量之间的关系是线性的,从而建立多元线性回归模型,借助工具进行多元线性回归处理得到数据;S7:对模型进行检验,一个指标是拟合度,设定拟合阈值为拟合程度很高,第二个指标为DW检验,通过T显著性指标大于指标阈值,对设置的指标进行筛选,获得回归方程,否则如果无法获得我们想要的模型,就转移到S3;S8:运行模型,进行共线性诊断,查看VIF方差扩大因子,若VIF小于门限值则判断自变量之间不存在共线性,否则我们需要进行主成分分析处理共线性问题,之后分析残差,若残差不满足要求就转移到S3;S9:若满足上述步骤的要求,则说明该线性回归方程模型满足该数据集,利用得到的线性回归方程,同时结合用户和餐馆信息,得出尚未有星级的餐馆的评价星级。2.如权利要求1所述的基于线性回归的餐馆星级评价方法,其特征在于:所述步骤S1中,UGC类网站上,用户会通过自身的体验对商户进行评分与评价,而每个用户在评分后会给出评论,从餐饮网站上抓取三张数据表格user、business、review,User表为用户信息,包括用户粉丝数、用户平均星评及用户评价数信息;Business表为餐馆信息,包括餐馆评价数、餐馆星级信息;Review表为评论信息,包括评论cool、评论funny、评论useful、评论星评及评价文本信息。3.如权利要求1或2所述的基于线性回归的餐馆星级评价方法,其特征在于:所述步骤S2中,用户在评论中使用描述情感的形容词,表现情感强度的副词、标点符号,通过抓取这一系列的关键词汇可以数值化评论中所包含的情感值。因为用回归法时,需要数值型数据,需要将标称型数据转成二值型数据。4.如权利要求1或2所述的基于线性回归的餐馆星级评价方法,其特征在于:所述步骤S3中,同时考虑用户自身体验的指标和商户已经存在的客观指标,以及语义分析得到特征,选定影响餐馆评分的13个重要特征:评论cool、评论funny、评论...
【专利技术属性】
技术研发人员:宣琦,虞烨炜,周鸣鸣,郑永立,赵明浩,傅晨波,俞立,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。