旅游评论短文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33042232 阅读：9 留言：0更新日期：2022-04-15 09:23

本发明专利技术涉及一种旅游评论短文本分类方法、装置、电子设备及存储介质。本发明专利技术所述的一种旅游评论短文本分类方法包括：获取待分类的文本，并对所述待分类的文本进行预处理，得到数字化的文本数据；采用BERT模型对所述文本数据进行编码，得到编码向量；采用BTM主题模型对所述文本数据进行主题向量学习，得到主题向量；将所述编码向量和所述主题向量进行融合，得到融合向量；提取所述融合向量的深层特征，得到上下文语义关系编码序列；对所述上下文语义关系编码序列进行归一化处理，得到所述文本的所属类别。本发明专利技术所述的一种旅游评论短文本分类方法，使用的分类模型结合BTM主题模型和BERT模型，并进行捕捉文本上下文信息特征，提高了文本分类的精度。文本分类的精度。文本分类的精度。

全部详细技术资料下载

【技术实现步骤摘要】
旅游评论短文本分类方法、装置、电子设备及存储介质

[0001]本专利技术涉及文本分类领域，特别是涉及一种旅游评论短文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]随着移动互联网和生活质量的提升，人们对旅游的热情日益攀升，各大旅游服务网站也应运而生，其中大量的旅游评论都以短文本的形式记录，这些数据可能涵盖了用户的真实需求、行为、偏好等信息。旅游网站评论一般由几个到几十个词组成，具有长度短、特征稀疏、多歧义等短文本特点。
[0003]如若使用传统的文本分类方法手工提取特征，获得的特征较为稀疏；如若采用机器学习方法，如SVM、朴素贝叶斯、逻辑回归等，则分类的精度有限，不能满足要求。
[0004]目前基于主题模型的文本分类如LDA(隐含狄利克雷分布)在处理短文本时，由于文本短，包含很少的文本特征，单条句子级别的短文本形不成话题，用LDA很难建模。而且增加文本数量不能克服这种短文本带来的缺陷。
[0005]现有技术常用的词编码模型如word2Vec，word2Vec由词义的分布式假设(一个单词的意思由频繁出现在它上下文的词给出)出发，最终得到的是一个look
‑
up table,每一个单词被映射到一个唯一的稠密向量。它无法处理一词多义问题，但自然语言中每个词都可能多个不同的含义，只用固定的某一个向量，并不能很好的解决这个问题。另外，word2Vec产生的词表示是静态的，不考虑上下文的，而解决一词多义问题必然离不开上下文。word2Vec的网络模型过于简单，导致不能很好的...

【技术保护点】

【技术特征摘要】
1.一种旅游评论短文本分类方法，其特征在于，包括以下步骤：获取待分类的文本，并对所述待分类的文本进行预处理，得到数字化的文本数据；采用BERT模型对所述文本数据进行编码，得到编码向量；采用BTM主题模型对所述文本数据进行主题向量学习，得到主题向量；将所述编码向量和所述主题向量进行融合，得到融合向量；提取所述融合向量的深层特征，得到上下文语义关系编码序列；对所述上下文语义关系编码序列进行归一化处理，得到所述文本的所属类别。2.根据权利要求1所述的一种旅游评论短文本分类方法，其特征在于，采用BTM主题模型对所述文本数据进行主题向量学习，得到主题向量，包括：将所述文本数据S输入BTM模型；将文本数据S转化为Biterm，得到B＝(B1，B2，...，B
m
)，其中B
i
表示文本数据经过BTM模型分解的每一个Biterm；生成每个B
i
的主题分布，得到W＝(W1，W2，...，W
m
)，其中，其中W为主题向量集，W
i
表示每一个B
i
所对应的主题向量。3.根据权利要求1所述的一种旅游评论短文本分类方法，其特征在于，采用BERT模型对所述文本数据进行编码，得到编码向量，包括：将所述文本数据S输入所述BERT模型；将所述文本数据S＝(S1，S2，...，S
n
)进行序列化，得到序列化的文本数据E＝(E1，E2，...，E
n
)，其中E
i
表示文本中第i个字的序列化表示；用BERT编码器对所述序列化的文本数据进行训练，得到编码向量T＝(T1，T2，...，T
n
)，其中，T为经过BERT编码后的向量集，T
i
向表示每一个E
i
对应的词编码向量。4.根据权利要求1所述的一种旅游评论短文本分类方法，其特征在于，提取所述融合向量的深层特征，包括：将所述融合向量输入训练好的BiGRU网络；所述BiGRU网络对所述融合向量进行处理，提取所述融合向量的深层特征，得到上下文语义关系编码序列。5.根据权利要...

【专利技术属性】
技术研发人员：冼广铭，梅灏洋，余嘉琳，张鑫，王鲁栋，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人