短文本分类方法及终端设备技术

技术编号:28623307 阅读:11 留言:0更新日期:2021-05-28 16:19
本发明专利技术适用于文本处理技术领域,提供了一种短文本分类方法及终端设备,上述方法包括:获取待处理短文本,并对待处理短文本进行预处理;提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。本发明专利技术从主题词和特征词两个方面进行考量,用主题词扩展短文本缺乏的主题信息,提高了模型分类的准确率。

【技术实现步骤摘要】
短文本分类方法及终端设备
本专利技术属于文本处理
,尤其涉及一种短文本分类方法及终端设备。
技术介绍
随着电力行业竞争的加剧,如何维护用户满意度、提高电力工单的处理效率成为电力企业急需解决的问题。为确保用户提交的问题得到迅速有效的解决,首先需对工单文本进行高效、准确地分类。由于电力行业工单文本具有篇幅短、特征稀疏且上下文信息缺乏等特征,采用现有文本分类方法进行分类准确率不够高,不能满足电力行业的实际应用需求。
技术实现思路
有鉴于此,本专利技术实施例提供了一种短文本分类方法及终端设备,以解决现有技术中采用现有的文本分类方法对电力行业工单文本进行处理分类准确率不够高,不能满足应用需求的问题。本专利技术实施例的第一方面提供了一种短文本分类方法,包括:获取待处理短文本,并对待处理短文本进行预处理;提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。本专利技术实施例的第二方面提供了一种短文本分类装置,包括:预处理模块,用于获取待处理短文本,并对待处理短文本进行预处理;融合模块,用于提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;向量生成模块,用于建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;结果输出模块,用于将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如本专利技术实施例第一方面提供的短文本分类方法的步骤。本专利技术实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如本专利技术实施例第一方面提供的短文本分类方法的步骤。本专利技术实施例提供了一种短文本分类方法,包括:获取待处理短文本,并对待处理短文本进行预处理;提取预处理后的短文本的特征词及主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。本专利技术实施例从主题词和特征词两个方面进行考量,用主题词扩展短文本缺乏的主题信息,提高了模型分类的准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种短文本分类方法的实现流程示意图;图2是本专利技术实施例提供的BTM模型的结构图;图3是本专利技术实施例提供的BERT模型的结构;图4是本专利技术实施例提供的一种短文本分类装置的示意图;图5是本专利技术实施例提供的终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术的技术方案,下面通过具体实施例来进行说明。参考图1,本专利技术实施例提供了一种短文本分类方法,包括:S101:获取待处理短文本,并对待处理短文本进行预处理;S102:提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将预处理后的短文本的特征词和预处理后的短文本的主题词进行拼接,得到目标词集;S103:建立文本向量训练模型,并将目标词集输入文本向量训练模型进行文本向量训练,得到目标文本向量;S104:将目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。本专利技术实施例针对电力工单文本等短文本,从主题词和特征词两个方面进行考量,提取预处理后的短文本的特征词,再用主题词扩展短文本缺乏的主题信息,提高了模型分类的准确率,可以满足电力行业的实际应用需求。一些实施例中,S102可以包括:S1021:采用融合词性的TF-IDF算法提取预处理后的短文本的特征词。本专利技术实施例从统计方面采用融合词性的TF-IDF(termfrequency–inversedocumentfrequency,词频-逆向文件频率)算法提取预处理后的短文本的特征词,提取出有意义的特征词,排除非无意义词汇的影响,减少了算法执行时间,提高了算法运行效率。一些实施例中,S1021可以包括:词汇w的文本特征词权重weightw的计算公式为:weightw=λ×tfw×idfw其中,λ为词性权重,tfw为词汇w在语料库中出现的频率,idfw为词汇w的逆文本频率;cw为词汇w出现的总次数,cw'为第w'种词的数量,w'=1,2…,W,W为词汇表大小,|M|为待处理短文本中文本的数量,|{j:w∈dj}|为待处理短文本中包含词w的文本的数量。一些实施例中,名词或动词的词性权重λ为1.5,其他词性权重为1。可根据实际应用需求设定词性权重。其中,待处理短文本包括多条文本。例如,预处理后的短文本包括10000条电力工单文本信息,所有词汇累计共出现100000次,在对某一条电力工单文本信息采用融合词性的TF-IDF算法进行特征词提取时,其中,包含“电费”一词,并且“电费”一词出现在99条电力工单文本中,累计出现1000次,同时“电费”一词为名词,词性权重λ可以为1.5所以采用融合词性的TF-IDF算法进行特征词提取时,一些实施例中,S102可以包括:S1022:采用BTM模型提取预处理后的短文本的主题词。由于电力工单文本篇幅较短、特征稀疏,本专利技术实施例从潜在语义方面采用BTM模型(BitermTopicModel)提取主题词,扩展文本特征。BTM模型打破了传统主题模型的文档主题层,通过将文档转换为词对(词对是指文档预处理后任意共现的两个词),对整个语料库的词对建模学习主题,有效解决了短文本数据稀疏性和高维度的问题,同时考虑了词之间的语义联系,获得了更为准确的话题词,提高了分类的准确率。图2示出了BTM模型的结构图。θ为整个语料库中的主题分布,φ为某一主题下词的分布,Z为某一词对所对应的主本文档来自技高网...

【技术保护点】
1.一种短文本分类方法,其特征在于,包括:/n获取待处理短文本,并对所述待处理短文本进行预处理;/n提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将所述预处理后的短文本的特征词和所述预处理后的短文本的主题词进行拼接,得到目标词集;/n建立文本向量训练模型,并将所述目标词集输入所述文本向量训练模型进行文本向量训练,得到目标文本向量;/n将所述目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。/n

【技术特征摘要】
1.一种短文本分类方法,其特征在于,包括:
获取待处理短文本,并对所述待处理短文本进行预处理;
提取预处理后的短文本的特征词,提取预处理后的短文本的主题词,并将所述预处理后的短文本的特征词和所述预处理后的短文本的主题词进行拼接,得到目标词集;
建立文本向量训练模型,并将所述目标词集输入所述文本向量训练模型进行文本向量训练,得到目标文本向量;
将所述目标文本向量输入预设的分类模型中进行分类,得到目标分类结果。


2.如权利要求1所述的短文本分类方法,其特征在于,所述提取预处理后的短文本的特征词,包括:
采用融合词性的TF-IDF算法提取所述预处理后的短文本的特征词。


3.如权利要求2所述的短文本分类方法,其特征在于,所述采用融合词性的TF-IDF算法提取所述预处理后的短文本的特征词,包括:
词汇w的文本特征词权重weightw的计算公式为:
weightw=λ×tfw×idfw






其中,λ为词性权重,tfw为词汇w在语料库中出现的频率,idfw为词汇w的逆文本频率;cw为词汇w出现的总次数,cw'为第w'种词的数量,w'=1,2…,W,W为词汇表大小,|M|为待处理短文本中文本的数量,|{j:w∈dj}|为所述待处理短文本中包含词w的文本的数量。


4.如权利要求1至3任一项所述的短文本分类方法,其特征在于,所述提取预处理后的短文本的主题词,包括:
采用BTM模型提取所述预处理后的短文本的主题词。


5.如权利要求1至3任一项所述的短文本分类方法,其特征在于,所述建立文本向量训练模型...

【专利技术属性】
技术研发人员:马浩王兆辉康之增刘林青李梦宇安亚刚吴迪
申请(专利权)人:国网河北省电力有限公司营销服务中心国家电网有限公司国网河北省电力有限公司电力科学研究院
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1