一种抽取用户细粒度典型意见数据处理系统及方法技术方案

技术编号:24011240 阅读:84 留言:0更新日期:2020-05-02 01:49
本发明专利技术属于数据处理技术领域,公开了一种抽取用户细粒度典型意见数据处理系统及方法,对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;使用词嵌入模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;抽取用户评论中与产品相关的属性;将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;对文本进行聚类;得到产品不同属性的用户典型意见。本发明专利技术抽取出用户评论中与产品相关的属性文本,将相同属性、相同情感倾向的文本尽可能地聚到同一簇中,得到不同属性的用户典型意见。有效地提高了聚类结果的准确性,并使得聚类结果的颗粒度更小,快速得到用户对产品不同属性的典型意见。

A data processing system and method for extracting users' fine-grained typical opinions

【技术实现步骤摘要】
一种抽取用户细粒度典型意见数据处理系统及方法
本专利技术属于数据处理
,尤其涉及一种抽取用户细粒度典型意见数据处理系统及方法。
技术介绍
目前,最接近的现有技术:随着互联网技术的不断发展,网络购物改变了我们的生活方式,为我们的生活提供了极大的便捷。通常当我们在某一电商平台上买到某一款产品后,会将自己的购物体验以及使用感受发表出来,以表达自己对该产品的观点。而这些观点对于商家以及想要购买该产品的用户而言是非常重要的。商家通过对大量的用户评论进行分析,可以了解用户对该产品的看法,并对用户不满意的点进行改进,以帮助产品的优化。而想要购买该产品的用户,可以参考已经购买过该产品用户的使用体验,辅助决策,决定是否购买该产品。目前已经有相关技术方法,可以从用户评论中得到用户对该产品的观点。常见方法包括:(1)通过文本多分类的方法,得到用户对该产品的情感倾向以表达用户对此产品的看法。该方法并不能得到用户对该产品某一属性特有的看法,而大多数情况下,对于同一产品不同的属性,用户所持有的观点是不相同的。(2)通过文本多标签多分类的方法,得到用户对该产品不同属性的情感倾向以表达用户对此产品不同属性的看法。该方法并不能得到用户对不同属性观点的具体表述,只能得到不同属性的情感倾向。但很多时候,通过对属性观点表述的具体阅读,可以得到更多的信息。(3)通过对文本数据直接进行聚类,得到用户对该产品的典型意见。由于文本评论中会存在与该产品无关的描述,因此导致聚类的结果不理想;另外,通过对评论直接进行聚类,可以得到用户对该产品的整体观点,但不能得到用户对该产品不同属性的观点。综上所述,现有技术存在的问题是:现有技术通过对文本数据直接进行聚类导致聚类的结果不理想;另外,通过对评论直接进行聚类,可以得到用户对该产品的整体观点,但不能得到用户对该产品不同属性的观点。解决上述技术问题的难度:通常聚类结果由两方面来决定:聚类数据、聚类算法。为了准确得到用户细粒度典型意见,需要对聚类数据进行预处理,使得每一个聚类文本,都带有明显的特征。本专利技术通过命名实体识别的方法,抽取用户评论文本中提及到的产品属性,将一条评论数据拆分成多条数据,让每一条数据,能够完整的表达用户对产品某一属性的意见,并且过滤掉无关信息。另外,为了使聚类算法能够更好的将同一属性同一意见聚类到同一簇中,不同的属性不同意见聚类到不同簇中,需根据聚类数据的特征,对聚类算法进行调整。本专利技术对聚类的初始中心点进行了自定义并对聚类结果进行了调整,使聚类的结果更加准确。解决上述技术问题的意义:扩展了聚类方法的应用领域。由于现有聚类方法存在的效果缺陷,使得它只能成为人们进行文本分析时的一种辅助手段,通常先通过聚类方法对数据分布特征进行大致了解,然后再通过自然语言处理技术中别的方法,对不同特征的数据进行处理,得到数据的具体信息。而上述技术问题的解决,扩展了聚类方法的应用领域,通过聚类方法可以直接得到数据的详细信息,即用户对产品不同属性的典型意见。另外,上述技术问题的解决,为抽取用户细粒度典型意见提出了一种全新的简单高效的方法。对于用户细粒度典型意见的抽取目前通常采用多标签分类的方法来实现,但该方法只能得到用户对产品不同属性总体的意见,并不能得到用户意见的具体描述,通过上述技术问题的解决,既可以得到用户对产品不同属性的总体意见,也可以得到该意见的具体描述。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种抽取用户细粒度典型意见数据处理系统及方法。本专利技术是这样实现的,一种抽取用户细粒度典型意见数据处理方法,所述抽取用户细粒度典型意见数据处理方法包括以下步骤:第一步,对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;第二步,使用词嵌入模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;第三步,使用命名实体识别的方法,抽取用户评论中与产品相关的属性;第四步,将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;第五步,以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。进一步,所述抽取用户细粒度典型意见数据处理方法数据进行清洗包括:过滤掉与本产品无关的用户评论,水军评论以及用户评论中出现的无意义的符号;对用户评论中出现的标点符号、英文字母,采用统一的书写方式,转换为统一的表述;对于没有任何标点符号分割的较长文本评论,采用textrank的方法,对文本进行分割,人为添加标点符号进行断句。进一步,所述抽取用户细粒度典型意见数据处理方法对清洗后的数据进行分词过程中,对于专业领域的词汇、网络用语或缩写,出现分词错误,人工构建自定义分词词典;所述抽取用户细粒度典型意见数据处理方法字或词的向量化表示,使用Word2vec或Glove模型对文本数据进行训练,生成相应的字向量、词向量文件;进一步,所述抽取用户细粒度典型意见数据处理方法在产品属性定义阶段,通过调研,人工自定义得到与产品相关的常见属性;所述抽取用户细粒度典型意见数据处理方法采用命名实体识别的方法抽取用户评论中与该产品相关的属性,命名实体识别使用BiLSTM+CRF网络模型,以输入文本字向量和词向量的组合作为特征输入,对模型进行训练,以识别出与产品相关的属性描述。进一步,所述抽取用户细粒度典型意见数据处理方法将抽取到的属性文本转换为向量前,通过相似度计算,生成同义词典,将属性文本中所有的同义词进行同义词替换,并使用停用词词典过滤掉无实际意义的词语,通过字向量加权求平均值的方法生成属性文本的向量表示。进一步,所述抽取用户细粒度典型意见数据处理方法以属性向量为特征,使用Kmeans算法对文本进行聚类,在聚类过程中选取聚类初始中心点:(1)对抽取到的属性文本统计所有文本出现的频率;(2)选择出现次数大于一定阈值的属性文本;(3)计算文本之间的相似度,挑选出相似度小于一定阈值的文本向量作为聚类初始中心点。进一步,所述抽取用户细粒度典型意见数据处理方法聚类结束后中心观点的选取包括:(1)计算每个簇中文本之间的相似度;(2)将簇中相似度较大的文本映射为同一文本,统计每个簇中,所有文本出现的次数;(3)将出现频率最高的文本作为该簇的中心观点;所述抽取用户细粒度典型意见数据处理方法计算所有簇中每个属性文本与所有中心观点之间的相似度,对相似度小于阈值的属性文本所属的簇进行调整,将其分配到与该簇中心观点相似度较大的簇中,最后抽取每个簇的中心观点,作为用户对该属性的典型意见。本专利技术的另一目的在于提供一种实施所述抽取用户细粒度典型意见数据处理方法的抽取用户细粒度典型意见数据处理系统,所述抽取用户细粒度典型意见数据处理系统包括:数据处理模块,用于对数据进行清洗,过滤掉噪声数据,对清洗后的数据进行分字,分词;文件定义模块,用于使用词嵌入模型训练字向量、词向量表示,生成相应的文件,定义产品常见属性;产品属性抽取模块,用于使用命名实体识别的方法,抽取用户评论中与产品相关的属性;属性本文档来自技高网
...

【技术保护点】
1.一种抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法包括以下步骤:/n第一步,对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;/n第二步,使用词嵌入模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;/n第三步,使用命名实体识别的方法,抽取用户评论中与产品相关的属性;/n第四步,将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;/n第五步,以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。/n

【技术特征摘要】
1.一种抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法包括以下步骤:
第一步,对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;
第二步,使用词嵌入模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;
第三步,使用命名实体识别的方法,抽取用户评论中与产品相关的属性;
第四步,将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;
第五步,以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。


2.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法数据进行清洗包括:过滤掉与本产品无关的用户评论,水军评论以及用户评论中出现的无意义的符号;对用户评论中出现的标点符号、英文字母,采用统一的书写方式,转换为统一的表述;对于没有任何标点符号分割的较长文本评论,采用textrank的方法,对文本进行分割,人为添加标点符号进行断句。


3.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法对清洗后的数据进行分词过程中,对于专业领域的词汇、网络用语或缩写,出现分词错误,人工构建自定义分词词典;
所述抽取用户细粒度典型意见数据处理方法字或词的向量化表示,使用Word2vec或Glove模型对文本数据进行训练,生成相应的字向量、词向量文件。


4.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法在产品属性定义阶段,通过调研,人工自定义得到与产品相关的常见属性;
所述抽取用户细粒度典型意见数据处理方法采用命名实体识别的方法抽取用户评论中与该产品相关的属性,命名实体识别使用BiLSTM+CRF网络模型,以输入文本字向量和词向量的组合作为特征输入,对模型进行训练,以识别出与产品相关的属性描述。


5.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法将抽取到的属性文本转换为向量前,通过相似度计算,生成同义词典,将属性文本中所有的同义词进行同义词替换...

【专利技术属性】
技术研发人员:刘宝强肖云飞
申请(专利权)人:深圳视界信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1