旅游评论短文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33042232 阅读:9 留言:0更新日期:2022-04-15 09:23
本发明专利技术涉及一种旅游评论短文本分类方法、装置、电子设备及存储介质。本发明专利技术所述的一种旅游评论短文本分类方法包括:获取待分类的文本,并对所述待分类的文本进行预处理,得到数字化的文本数据;采用BERT模型对所述文本数据进行编码,得到编码向量;采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量;将所述编码向量和所述主题向量进行融合,得到融合向量;提取所述融合向量的深层特征,得到上下文语义关系编码序列;对所述上下文语义关系编码序列进行归一化处理,得到所述文本的所属类别。本发明专利技术所述的一种旅游评论短文本分类方法,使用的分类模型结合BTM主题模型和BERT模型,并进行捕捉文本上下文信息特征,提高了文本分类的精度。文本分类的精度。文本分类的精度。

【技术实现步骤摘要】
旅游评论短文本分类方法、装置、电子设备及存储介质


[0001]本专利技术涉及文本分类领域,特别是涉及一种旅游评论短文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]随着移动互联网和生活质量的提升,人们对旅游的热情日益攀升,各大旅游服务网站也应运而生,其中大量的旅游评论都以短文本的形式记录,这些数据可能涵盖了用户的真实需求、行为、偏好等信息。旅游网站评论一般由几个到几十个词组成,具有长度短、特征稀疏、多歧义等短文本特点。
[0003]如若使用传统的文本分类方法手工提取特征,获得的特征较为稀疏;如若采用机器学习方法,如SVM、朴素贝叶斯、逻辑回归等,则分类的精度有限,不能满足要求。
[0004]目前基于主题模型的文本分类如LDA(隐含狄利克雷分布)在处理短文本时,由于文本短,包含很少的文本特征,单条句子级别的短文本形不成话题,用LDA很难建模。而且增加文本数量不能克服这种短文本带来的缺陷。
[0005]现有技术常用的词编码模型如word2Vec,word2Vec由词义的分布式假设(一个单词的意思由频繁出现在它上下文的词给出)出发,最终得到的是一个look

up table,每一个单词被映射到一个唯一的稠密向量。它无法处理一词多义问题,但自然语言中每个词都可能多个不同的含义,只用固定的某一个向量,并不能很好的解决这个问题。另外,word2Vec产生的词表示是静态的,不考虑上下文的,而解决一词多义问题必然离不开上下文。word2Vec的网络模型过于简单,导致不能很好的体现词的复杂性,也没有很好的考虑到语法、语义等问题,也没有把单词的位置信息一起编码,因此产生的词向量不能很好的提取到上下文的依赖关系,也不能提取到更多深层的关系。

技术实现思路

[0006]基于此,本专利技术的目的在于,提供一种旅游评论短文本分类方法、装置、电子设备及存储介质,使用Topic BERT(结合BTM主题模型和BERT模型)进行中文文本的特征表示,并在此基础上进行捕捉文本上下文信息特征的文本分类模型以此来提高文本分类的精度。
[0007]第一方面,本专利技术提供一种旅游评论短文本分类方法,包括以下步骤:
[0008]获取待分类的文本,并对所述待分类的文本进行预处理,得到数字化的文本数据;
[0009]采用BERT模型对所述文本数据进行编码,得到编码向量;
[0010]采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量;
[0011]将所述编码向量和所述主题向量进行融合,得到融合向量;
[0012]提取所述融合向量的深层特征,得到上下文语义关系编码序列;
[0013]对所述上下文语义关系编码序列进行归一化处理,得到所述文本的所属类别。
[0014]进一步地,采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量,包括:
[0015]将所述文本数据S输入BTM模型;
[0016]将文本数据S转化为Biterm,得到B=(B1,B2,...,B
m
),其中B
i
表示文本数据经过BTM模型分解的每一个Biterm;
[0017]生成每个B
i
的主题分布,得到W=(W1,W2,...,W
m
),其中,其中W为主题向量集,W
i
表示每一个B
i
所对应的主题向量。
[0018]进一步地,采用BERT模型对所述文本数据进行编码,得到编码向量,包括:
[0019]将所述文本数据S输入所述BERT模型;
[0020]将所述文本数据S=(S1,S2,...,S
n
)进行序列化,得到序列化的文本数据E=(E1,E2,...,E
n
),其中E
i
表示文本中第i个字的序列化表示;
[0021]用BERT编码器对所述序列化的文本数据进行训练,得到编码向量T=(T1,T2,...,T
n
),其中,T为经过BERT编码后的向量集,T
i
向表示每一个E
i
对应的词编码向量。
[0022]进一步地,提取所述融合向量的深层特征,包括:
[0023]将所述融合向量输入训练好的BiGRU网络;
[0024]所述BiGRU网络对所述融合向量进行处理,提取所述融合向量的深层特征,得到上下文语义关系编码序列。
[0025]进一步地,对所述上下文语义关系编码序列进行归一化处理,得到所述文本的所属类别,包括:
[0026]将所述上下文语义关系编码序列输入全连接层进行处理;
[0027]使用softmax函数对所述全连接层的输出结果进行归一化处理,输出所述文本对应的分类概率;
[0028]根据所述文本对应的分类概率,得到所述文本的所属类别。
[0029]进一步地,将所述编码向量和所述主题向量进行融合,得到融合向量,包括:
[0030]使用以下公式,拼接所述编码向量和所述主题向量:
[0031]X=[T;W][0032]其中,“;”表示向量的顺序拼接操作;
[0033]得到所述融合向量X=(X1,X2,...,X
t
)。
[0034]进一步地,对所述待分类的文本进行预处理,包括:
[0035]使用分词工具,将所述待分类的文本切分成短语或者单词;
[0036]对所述切分后的文本,进行去除停止词处理;
[0037]对所述切分后的文本,进行去除低频词语处理;
[0038]输出所述待分类的文本对应的数字化的文本数据。
[0039]第二方面,本专利技术还提供一种旅游评论短文本分类装置,包括:
[0040]文本获取模块,用于获取待分类的文本,并对所述待分类的文本进行预处理,得到数字化的文本数据;
[0041]编码模块,用于采用BERT模型对所述文本数据进行编码,得到编码向量;
[0042]主题向量学习模块,用于采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量;
[0043]向量融合模块,用于将所述编码向量和所述主题向量进行融合,得到融合向量;
[0044]深层特征提取模块,用于提取所述融合向量的深层特征,得到上下文语义关系编
码序列;
[0045]归一化模块,用于对所述上下文语义关系编码序列进行归一化处理,得到所述文本的所属类别。
[0046]第三方面,本专利技术还提供一种电子设备,其特征在于,包括:
[0047]至少一个存储器以及至少一个处理器;
[0048]所述存储器,用于存储一个或多个程序;
[0049]当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本专利技术第一方面任一所述的一种旅游评论短文本分类方法的步骤。
[0050]第四方面,本专利技术还提供一种计算机可读本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种旅游评论短文本分类方法,其特征在于,包括以下步骤:获取待分类的文本,并对所述待分类的文本进行预处理,得到数字化的文本数据;采用BERT模型对所述文本数据进行编码,得到编码向量;采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量;将所述编码向量和所述主题向量进行融合,得到融合向量;提取所述融合向量的深层特征,得到上下文语义关系编码序列;对所述上下文语义关系编码序列进行归一化处理,得到所述文本的所属类别。2.根据权利要求1所述的一种旅游评论短文本分类方法,其特征在于,采用BTM主题模型对所述文本数据进行主题向量学习,得到主题向量,包括:将所述文本数据S输入BTM模型;将文本数据S转化为Biterm,得到B=(B1,B2,...,B
m
),其中B
i
表示文本数据经过BTM模型分解的每一个Biterm;生成每个B
i
的主题分布,得到W=(W1,W2,...,W
m
),其中,其中W为主题向量集,W
i
表示每一个B
i
所对应的主题向量。3.根据权利要求1所述的一种旅游评论短文本分类方法,其特征在于,采用BERT模型对所述文本数据进行编码,得到编码向量,包括:将所述文本数据S输入所述BERT模型;将所述文本数据S=(S1,S2,...,S
n
)进行序列化,得到序列化的文本数据E=(E1,E2,...,E
n
),其中E
i
表示文本中第i个字的序列化表示;用BERT编码器对所述序列化的文本数据进行训练,得到编码向量T=(T1,T2,...,T
n
),其中,T为经过BERT编码后的向量集,T
i
向表示每一个E
i
对应的词编码向量。4.根据权利要求1所述的一种旅游评论短文本分类方法,其特征在于,提取所述融合向量的深层特征,包括:将所述融合向量输入训练好的BiGRU网络;所述BiGRU网络对所述融合向量进行处理,提取所述融合向量的深层特征,得到上下文语义关系编码序列。5.根据权利要...

【专利技术属性】
技术研发人员:冼广铭梅灏洋余嘉琳张鑫王鲁栋
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1