基于标签描述的文本分类方法、装置、存储介质及设备制造方法及图纸

技术编号:28673538 阅读:14 留言:0更新日期:2021-06-02 02:49
本申请公开了一种基于标签描述的文本分类方法、装置、存储介质及设备,属于文本分类领域。该基于标签描述的文本分类方法包括:根据各个分类标签的语义,获取各个分类标签对应的标签描述;将各个标签描述分别与待分类文本输入到语义分析模型中,分别得到待分类文本属于各个分类标签对应的概率值;根据概率值与预设阈值的关系,确定待分类文本对应的分类标签。该基于标签描述的文本分类方法可以让标签具有丰富的文本语义,从而更好地指导模型分类,提高分类准确率。

【技术实现步骤摘要】
基于标签描述的文本分类方法、装置、存储介质及设备
本申请涉及文本分类领域,特别是一种基于标签描述的文本分类方法、装置、存储介质及设备。
技术介绍
随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本信息量呈现出爆炸式增长的趋势。为了有效地管理和利用这些海量文本信息,实现准确地文本信息定位和文本信息过滤,近年来基于机器学习的文本分类受到广泛关注。文本分类根据样本类别标签的个数可分为单标签分类和多标签分类。现有技术中,传统文本分类方法直接将待分类文本送入语义分析模型,然后一次性输出每个分类标签的概率,取其中最大的一个或几个作为最终的分类结果。对于简单的句子来说,这种方法的准确率还是比较高的,但是当句子比较复杂,或者分类标签之间的关系比较复杂的时候,这种方法就很难取得较好的效果。
技术实现思路
本申请主要提供一种基于标签描述的文本分类方法、装置、存储介质及设备,以解决现有技术中复杂句子无法分类的问题以及复杂分类标签无法判断的问题,该方法为每个分类标签设置了一个语义描述,并且分别让每个分类标签和待分类文本去做判断,从而提高文本分类的准确度。为了实现上述目的,本申请采用的一个技术方案是:提供一种基于标签描述的文本分类方法,其包括,根据各个分类标签的语义,获取各个分类标签对应的标签描述;将各个标签描述分别与待分类文本输入到语义分析模型中,分别得到待分类文本属于各个分类标签对应的概率值;根据概率值与预设阈值的关系,确定待分类文本对应的分类标签。本申请采用的另一个技术方案是:提供一种基于标签描述的文本分类装置,其包括,用于根据各个分类标签的语义,获取各个分类标签对应的标签描述的模块;用于将各个标签描述分别与待分类文本输入到语义分析模型中,分别得到待分类文本属于各个分类标签对应的概率值的模块;用于根据概率值与预设阈值的关系,确定待分类文本对应的分类标签的模块。本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其中计算机可读存储介质中存储有计算机执行指令,计算机执行指令被操作以执行方案一中的基于标签描述的文本分类方法。本申请采用的另一个技术方案是:提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中处理器操作计算机指令以执行方案一中的基于标签描述的文本分类方法。本申请的有益效果是:本方案提供了一种基于标签描述的文本分类方法、装置、存储介质及设备。本方案可以让分类标签具有丰富的文本语义,从而更好地指导语义分析模型对待分类文本进行分类,提高文本分类的准确率。本方案为每个分类标签设置了一个语义描述,用于得到关于该分类标签的语义信息,使用标签描述代替单独的分类标签,这不仅有助于语义分析模型更好地学习分类标签和待分类文本之间的相关性,解决复杂句子无法分类的问题,而且还提高了文本分类的准确率;在语义分析模型中,本方案分别让每个分类标签和待分类文本去做判断,而不是一次性判断所有的分类标签,这就有助于解决复杂分类标签之间的关系,解决语义分析模型无法判断复杂分类标签的问题。附图说明图1是本申请基于标签描述的文本分类方法的一个具体实施方式的流程示意图;图2是本申请基于标签描述的文本分类方法的一个具体实例的流程示意图;图3是本申请基于标签描述的文本分类方法的另一具体实例的流程示意图;图4是本申请基于标签描述的文本分类装置的一个具体实施方式的流程示意图。通过上述附图,已示出本申请明确的实例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实例为本领域技术人员说明本申请的概念。具体实施方式下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。需要说明的是,本申请权利要求书和说明书中的术语“第一”、“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。在本申请的一个具体实施方式中,图1示出了本申请基于标签描述的文本分类方法的一个具体实施方式,其中,包括:步骤S101:根据各个分类标签的语义,获取各个分类标签对应的标签描述。在本申请的一个具体实施例中,对分类标签进行定义解释,得到包括有关分类标签的语义信息的标签描述,使得分类标签具有丰富的文本语义。在本申请的一个具体实施例中,分类标签包括具体的名词短语或句子。在本申请的一个具体实例中,例如,人群分类标签:用户近半年消费层级、地区、淘气值、年龄等;行为分类标签:用户搜索习惯、收藏、加购、货比三家等。在本申请的一个具体实例中,在不同的领域,分类标签有可能相同,也有可能不同。比如在新闻领域,分类标签可以是体育,财经,军事等;在电影领域,分类标签可以是战争,科幻,悬疑等。在本申请的一个具体实例中,分类标签的标签描述的获取途径有很多种,既可以各种数据集中获取,也可以从维基百科定义中获取。在本申请的一个具体实例中,在若干数据集中搜索分类标签的数据,找到分类标签,然后根据每个分类标签的位置得到其具体的语义信息。其中,若干数据集可以包括单标签分类数据集AGNews,20news,DBPedia,Yahoo,YelpP,IMDB,多标签分类数据集Reuters,AAPD以及多方面情感分析数据集BeerAdvocate,TripAdvisor等。在本申请的一个具体实例中,在文本分类任务中,依据每个待分类文本对应的分类标签的数量,可分为单标签分类和多标签分类,在单标签分类中,每个待分类文本仅有一个对应的分类标签,相应地在多标签分类中,每个待分类文本对应的分类标签的数量可能有多个。本申请的待分类文本可以对应一个分类标签,也可以对应多个分类标签。在多标签分类中,根据分类标签的层级关系可分为层级性多标签和平行性多标签,而一般的多标签分类都默认是平行的。例如一部电影可能是喜剧片,又是爱情片,而这部电影的分类标签“喜剧片”和“爱情片”是平行的关系,没有层级结构;又比如一个电视产品,它属于“大家电”,也属于“家用电器”,而“大家电”标签是“家用电器”标签的子类,这产品所属的分类标签是有层级结构的。在本申请的一个具体实例中,对于各个分类标签,如何得到该分类标签的描述,我们除了使用牛津字典中的定义外,也可以使用维基百科的定义作为模板,比如简单的分类标签“科学家”的描述可以是:广义上指使用系统化的活动来发现新知识的人;狭义的定义指使用科学方法做研究,并且在一定的领域取得重要影响或者贡献的科研工作者;科学家一般是某个,或者多个科本文档来自技高网...

【技术保护点】
1.一种基于标签描述的文本分类方法,其特征在于,包括:/n根据各个分类标签的语义,获取所述各个分类标签对应的标签描述;/n将各个标签描述分别与待分类文本输入到语义分析模型中,分别得到所述待分类文本属于所述各个分类标签对应的概率值;以及/n根据所述概率值与预设阈值的关系,确定所述待分类文本对应的分类标签。/n

【技术特征摘要】
1.一种基于标签描述的文本分类方法,其特征在于,包括:
根据各个分类标签的语义,获取所述各个分类标签对应的标签描述;
将各个标签描述分别与待分类文本输入到语义分析模型中,分别得到所述待分类文本属于所述各个分类标签对应的概率值;以及
根据所述概率值与预设阈值的关系,确定所述待分类文本对应的分类标签。


2.如权利要求1所述的基于标签描述的文本分类方法,其特征在于,所述语义分析模型利用所述各个标签描述一一分析所述各个分类标签与所述待分类文本的关系。


3.如权利要求1所述的基于标签描述的文本分类方法,其特征在于,所述根据所述概率值与预设阈值的关系,确定所述待分类文本对应的分类标签的过程包括:
当所述概率值大于所述预定阈值时,所述待分类文本被分类到所述概率值对应的分类标签。


4.如权利要求1所述的基于标签描述的文本分类方法,其特征在于,所述将各个标签描述分别与待分类文本输入到语义分析模型中的过程,包括:
将所述各个标签描述分别与所述待分类文本进行拼接,其中,以拼接符号为分界符号,所述待分类文本在所述拼接符号之前,所述标签描述在所...

【专利技术属性】
技术研发人员:孙晓飞周毅成
申请(专利权)人:浙江香侬慧语科技有限责任公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1