文本分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:38586282 阅读:12 留言:0更新日期:2023-08-26 23:28
本申请涉及文本分类和智慧医疗领域,具体涉及一种文本分类方法、装置、电子设备及可读存储介质,其方法包括:对待分类文本进行分词处理,得到待分类词语集合;采用预构建的词库对待分类词语集合进行特征提取,得到词频特征;将词频特征输入文本分类模型,以使词频特征分别进入各分类器进行预测,得到多个预测概率值;根据所述多个预测概率值,确定待分类文本的分类结果。本申请能够充分利用标签之间的关联关系,且可通过场景语料数据构建词库,增加语料特征提取的丰富性,极大程度上提高了文本分类的准确性,相对于现有技术能够预测出更细粒度的标签,更加适用于一些特殊场景,如情感领域、智慧医疗等领域。智慧医疗等领域。智慧医疗等领域。

【技术实现步骤摘要】
文本分类方法、装置、电子设备及可读存储介质


[0001]本申请涉及文本分类和智慧医疗
,具体涉及一种文本分类方法、装置、电子设备及可读存储介质。

技术介绍

[0002]文本分类技术是自然语言处理技术NLP一个重要的分支,在很多领域都有着广泛的应用,如在情感分类、主题分类、智慧医疗等领域以及技术产品中都已经得到应用。
[0003]但是现有的通用文本分类技术的预测结果比较粗糙,对于一些特定场景准确率较低,且泛化能力差。

技术实现思路

[0004]本申请实施例针对上述情况,提出了一种文本分类方法、装置、电子设备及可读存储介质,以克服或者部分克服现有技术的不足之处。
[0005]第一方面,本申请实施例提供了一种文本分类方法,所述方法是基于文本分类模型实现的,所述文本分类模型包括多级粒度标签,其中所述多级粒度标签中的各细粒度标签分别对应一个训练好的分类器;
[0006]所述方法包括:
[0007]对所述待分类文本进行分词处理,得到待分类词语集合;
[0008]采用预构建的词库对所述待分类文本进行特征提取,得到词频特征;
[0009]将所述词频特征输入所述文本分类模型,以使所述词频特征分别进入各所述分类器进行预测,得到多个预测概率值;
[0010]根据所述多个预测概率值,确定所述待分类文本的分类结果。
[0011]第二方面,本申请实施例还提供了一种文本分类装置,所述文本分类装置用于实现前述的文本分类方法。
[0012]第三方面,本申请实施例还提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一的方法。
[0013]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述任一的方法。
[0014]本申请实施例采用的方法至少能够达到以下有益效果:
[0015]本申请提供了一种文本分类方法,该方法基于文本分类模型实现,对于文本分类模型,为其设置多级预测标签,各级预测标签按照粒度粗细划分,为每个最细粒度的设置一个分类器,并对二分类进行训练;且事先预构建一个词库,在词库中包含多个预测过程中关心的关键词。在对文本进行分类预测时,采用预构建的词库对待分类文本进行特征提取,得到一个词频特征,然后将词频特征分别输入文本分类模型中的每一个分类器中进行预测,
得到多个预测概率值,最后根据多个预测概率值的相对大小,确定待分类文本的分类结果。本申请能够充分利用标签之间的关联关系,尤其是层次关系,将这些关系应用在分类模型的构建中;且可通过场景语料数据构建词库,增加语料特征提取的丰富性,极大程度上提高了文本分类的准确性,相对于现有技术能够预测出更细粒度的标签,更加适用于一些特殊场景,如情感领域、智慧医疗等领域。
附图说明
[0016]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0017]图1示出了根据本申请的一个实施例的文本分类方法的流程示意图;
[0018]图2示出了根据本申请的一个实施例的文本分类模型中多级粒度标签的示意图;
[0019]图3示出了以图2示出的粒度结构为基础构建的文本分类模型的结构示意图;
[0020]图4示出了以图2示出的粒度结构为基础构建的另一种文本分类模型的结构示意图;
[0021]图5示出了根据本申请的一个实施例的文本分类装置的结构示意图;
[0022]图6为本申请实施例中一种电子设备的结构示意图。
具体实施方式
[0023]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0025]对于一些特殊领域,如心理领域和智慧医疗等领域,以心理领域为例,心理领域文本分类问题往往需要更加细化的分类有利于捕捉心理学语言特征,比如人称代词第一人称、第二人称、第三人称应该归属于不同的分类;在以智慧医疗领域为例,在在线问诊情境中,若一个患者咨询的是焦虑失眠,可以对焦虑做进一步的划分,如划分为工作焦虑以及情感焦虑等,从而更加精确的确定患者的病因。
[0026]但是现有技术中的文本分类方法,通常是比较粗糙的,如焦虑为一大类。对此本申请提供了一种文本分类方法,图1示出了根据本申请的一个实施例的文本分类方法的流程示意图,从图1可以看出,本申请的文本分类方法至少包括步骤S110~步骤S140:
[0027]步骤S110:对所述待分类文本进行分词处理,得到待分类词语集合;
[0028]首先获取待分类文本,对于待分类文本,通常是一段自然语音,在一些实施例中,待分类文本可以直接是一段文字;在另一些实施例中,待分类文本可以从一段语音中获得,具体的,如患者采用一段语音进行病情的咨询,可以对这段语音进行分类预测,以便为医生提供参考性意见,可以采用文本转化技术,将这一段语音转化为文字的形式,形成待分类文本。
[0029]本申请的方法可以基于文本分类模型实现的,本申请为文本分类模型设置了多级粒度标签,实际场景中,多级粒度标签为两级粒度标签最为常见,因此,以下实施例中,以多
级粒度标签为两级进行说明,图2示出了根据本申请的一个实施例的文本分类模型中多级粒度标签的示意图,从图2可以看出,第一级粒度标签为粗粒度标签,包括A、B和C,第二级粒度标签为细粒度标签,包括A1、A2、A3;B1、B2;C1、C2;其中,A1、A2、A3为A的下级标签,B1、B2为B的下级标签,C1、C2为C的下级标签。
[0030]以图2示出的粒度结构为基础,构建文本分类模型,图3示出了以图2示出的粒度结构为基础构建的文本分类模型的结构示意图,从图3可以看出,文本分类模型包括多个并列且互相隔离的分类器,每个细粒度标签对应一个分类器,具体的,A1对应分类器a1、A2对应分类器a2、A3对应分类器a3、B1对应分类器b1、B2对应分类器b2、C1对应分类器c1、C2对应分类器c2,各个分类器是相互隔离且独立训练的。在本申请的一些实施例中,可以对各个分类器通常为二分类器,即预测输入内容为是不是对应的类别,且各个分类器可以采用LGBM方法训练得到。在本申请的一些实施例中,可以在各分类器后连接一个全连接层,用于确定最终的分类结果(即步骤S140),但该全连接层并不是必要,也可以通过对业务逻辑的设置,实现全连接层的作用。
[0031]LGBM方法是基于直方图算法的,直方图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法是基于文本分类模型实现的,所述文本分类模型包括多级粒度标签,其中所述多级粒度标签中的各细粒度标签分别对应一个训练好的分类器;所述方法包括:对所述待分类文本进行分词处理,得到待分类词语集合;采用预构建的词库对所述待分类词语集合进行特征提取,得到词频特征;将所述词频特征输入所述文本分类模型,以使所述词频特征分别进入各所述分类器进行预测,得到多个预测概率值;根据所述多个预测概率值,确定所述待分类文本的分类结果。2.根据权利要求1所述的方法,其特征在于,各所述细粒度标签对应的分类器的输出端还分别连接一个训练好的再分类分类器;所述方法还包括:若所述多个预测概率值中的至少两个数值相等,则根据所述多个预测概率值,构建二次预测向量;将所述二次预测向量分别输入各所述细粒度标签对应的再分类分类器中进行预测,得到所述待分类文本的分类结果。3.根据权利要求1或2所述的方法,其特征在于,所述分类器或者所述再分类分类器为二分类器,且是采用LGBM方法训练的。4.根据权利要求1所述的方法,其特征在于,所述词库是根据下述方法构建的:获取多条训练语料,各条所述训练语料具有细粒度的标签;对各条所述训练语料进行分词、低频词去除、以及去重处理,得到各条训练语料的高频词语集合;将得到的多个高频词语集合合并,得到候选词语集合;确定所述候选词语集合中的各词语的重要量度值,并根据所述重要量度值选取所述候选词语集合中的多个词语组成所述词库。5.根据权利要求4所述的方法,其特征在于,所述重要量度值为TF

IDF值;所述确定所述候选词语集合中各所述词语的重要量度值,并根据所述重要量度值选取所述候选词语集合中的多个词语组成所述词库,包括:确定所述候选词语集合中的各词语的TF

IDF值;...

【专利技术属性】
技术研发人员:陈源
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1