一种文本分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:25479720 阅读:31 留言:0更新日期:2020-09-01 23:01
本申请提供了一种文本分类方法、装置、电子设备及可读存储介质,其中,所述文本分类方法包括:获取待分类文本的至少一个文本段,以及待分类文本对应的关键词特征;基于文本段中每个字词与关键词特征的相似度,确定文本段对应的待扩展文本段;将待扩展文本段中的预设词性的字词进行同义词替换,得到文本段对应的扩展文本段;基于文本段以及扩展文本段,对待分类文本进行分类。这样,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,可以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。

【技术实现步骤摘要】
一种文本分类方法、装置、电子设备及可读存储介质
本申请涉及文本挖掘
,尤其是涉及一种文本分类方法、装置、电子设备及可读存储介质。
技术介绍
文本分类,即是根据文本的特征将其分到预先设定的类别中,类别可以是两类,也可以是多于两类的更多类别,例如,文本可以根据内容分为“政治”、“经济”、“文化”等不同类别;在做情感分析时,可以根据文本的特点分为“积极情感文本”和“消极情感文本”。现阶段,文本分类方法大多是建立在具有大量的标签数据下的有监督学习,即将文本输入到训练好的分类器中,得到文本的类别标签。其中,分类器需要基于大量的样本,且各类别的样本数量相当的情况下进行模型训练,但是实际应用中,由于文本数据实例有限,数据样本少,使得分类器很难得到有效训练,导致文本分类结果的准确率较低。
技术实现思路
有鉴于此,本申请的目的在于提供一种文本分类方法、装置、电子设备及可读存储介质,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。本申请主要包括以下几个方面:第一方面,本申请实施例提供了一种文本分类方法,所述文本分类方法包括:获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。在一种可能的实施方式中,根据以下步骤确定所述待分类文本对应的关键词特征:获取所述待分类文本对应的预设类别标签;基于所述预设类别标签,确定所述待分类文本对应的关键词特征。在一种可能的实施方式中,所述基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段,包括:获取所述文本段中每个字词与所述关键词特征的相似度;将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。在一种可能的实施方式中,若所述目标字词在所述文本段中位置相邻字词的数量少于预设数量,则将所述文本段确定为待扩展文本段。在一种可能的实施方式中,所述基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类,包括:获取所述文本段的第一特征和所述扩展文本段的第二特征;基于所述第一特征、所述第二特征和预设的特征权重,确定所述文本段对应的文本段特征;基于所述文本段特征,确定所述待分类文本的文本特征;基于所述文本特征,对所述待分类文本进行分类。在一种可能的实施方式中,所述基于所述文本段特征,确定所述待分类文本的文本特征,包括:将所述文本段中每个字词与所述关键词特征的相似度的平均值确定为所述文本段的权重;基于每个文本段对应的文本段特征和权重,确定所述待分类文本的文本特征。第二方面,本申请实施例提供了一种文本分类装置,所述文本分类装置包括:第一获取模块,用于获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;确定模块,用于基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;第二获取模块,用于将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;分类模块,用于基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。在一种可能的实施方式中,所述第一获取模块根据以下步骤确定所述待分类文本对应的关键词特征:获取所述待分类文本对应的预设类别标签;基于所述预设类别标签,确定所述待分类文本对应的关键词特征。在一种可能的实施方式中,所述确定模块包括:相似度获取单元,用于获取所述文本段中每个字词与所述关键词特征的相似度;确定单元,用于将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。在一种可能的实施方式中,若所述目标字词在所述文本段中位置相邻字词的数量少于预设数量,则将所述文本段确定为待扩展文本段。在一种可能的实施方式中,所述分类模块包括:获取单元,用于获取所述文本段的第一特征和所述扩展文本段的第二特征;文本段特征确定单元,用于基于所述第一特征、所述第二特征和预设的特征权重,确定所述文本段对应的文本段特征;文本特征确定单元,用于基于所述文本段特征,确定所述待分类文本的文本特征;分类单元,用于基于所述文本特征,对所述待分类文本进行分类。在一种可能的实施方式中,文本特征确定单元在用于基于所述文本段特征,确定所述待分类文本的文本特征时,所述文本特征确定单元具体用于:将所述文本段中每个字词与所述关键词特征的相似度的平均值确定为所述文本段的权重;基于每个文本段对应的文本段特征和权重,确定所述待分类文本的文本特征。第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的文本分类方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的文本分类方法的步骤。本申请实施例提供的文本分类方法、装置、电子设备及可读存储介质,获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。这样,通过相似度确定待扩展文本段,并对待扩展文本段中预设词性的字词进行同义词替换,可以在不改变待分类文本句式结构的情况下,丰富待分类文本的关键词信息,使得在文本分类过程中,能够充分捕获待分类文本的文本特征,提高文本分类结果的准确率。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述文本分类方法包括:/n获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;/n基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;/n将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;/n基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述文本分类方法包括:
获取待分类文本的至少一个文本段,以及所述待分类文本对应的关键词特征;
基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段;
将所述待扩展文本段中的预设词性的字词进行同义词替换,得到所述文本段对应的扩展文本段;
基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类。


2.根据权利要求1所述的文本分类方法,其特征在于,根据以下步骤确定所述待分类文本对应的关键词特征:
获取所述待分类文本对应的预设类别标签;
基于所述预设类别标签,确定所述待分类文本对应的关键词特征。


3.根据权利要求1所述的文本分类方法,其特征在于,所述基于所述文本段中每个字词与所述关键词特征的相似度,确定所述文本段对应的待扩展文本段,包括:
获取所述文本段中每个字词与所述关键词特征的相似度;
将多个相似度中的目标相似度对应的目标字词,以及在所述文本段中与所述目标字词位置相邻的预设数量的字词,确定为所述文本段对应的待扩展文本段,其中,所述目标相似度大于多个相似度中除所述目标相似度之外的其他相似度。


4.根据权利要求3所述的文本分类方法,其特征在于,若所述目标字词在所述文本段中位置相邻字词的数量少于预设数量,则将所述文本段确定为待扩展文本段。


5.根据权利要求1所述的文本分类方法,其特征在于,所述基于所述文本段以及所述扩展文本段,对所述待分类文本进行分类,包括:
获取所述文本段的第一特征和所述扩展文本段的第二特征;
基于所述第一特征、所述第二特征和预设的特征权重,确定所述文本段对应的文本段特征;
基于所述文本段特征,确定所述待分类文本的文本特征;
基于所述文本特征,对所述待分类文本进行分类。<...

【专利技术属性】
技术研发人员:徐睿唐球关健杨嘉佳张雷刘金薛继东张尼
申请(专利权)人:中国电子信息产业集团有限公司第六研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1