本申请公开了一种多标签文档分类方法、装置、电子设备及介质。其中方法包括:确定待标注的初始文档;基于若干种目标文档类别,确定初始文档所属目标文档类别的第一类别标签;基于预构建的文本类别识别模型,确定初始文档所属的文本类别第二类别标签;对第一类别标签和第二类别标签进行融合,得到融合标签;依据融合标签对初始文档进行标注,得到带有融合标签的目标文档。本申请解决相关多标签分类技术中存在长尾分布的问题,同时实现了利用机器学习技术实现文档分类的自动化、智能化识别的目的,进而通过两种类别标签的融合,不仅实现了均衡文档分类,避免某些文本类别数量过多或多差的问题,还提高了文档分类的质量。还提高了文档分类的质量。还提高了文档分类的质量。
【技术实现步骤摘要】
多标签文档分类方法、装置、电子设备及介质
[0001]本申请涉及图像识别
,具体而言,本申请涉及一种多标签文档分类方法、装置、电子设备及介质。
技术介绍
[0002]文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。通常情况下,一个文档对应一个主题或标签,但有时也会对应多个,即“多标签分类”,尤其是在专业领域,当文档数量较大时,单纯依靠人工梳理,效率低下而成本高,而基于分类模型的自动化分类,则不同类别对应的文档可能存在长尾分布,即样本量过小的类别,模型分类的准确率低。
技术实现思路
[0003]本申请提供了一种多标签文档分类方法、装置、电子设备及计算机可读存储介质,可以解决上述问题。所述技术方案如下:
[0004]第一方面,提供了一种多标签文档分类方法,该方法包括:
[0005]确定待标注的初始文档;
[0006]在预设的多种文本类别中,确定待强化的若干种目标文档类别;
[0007]基于若干种目标文档类别,确定初始文档所属目标文档类别的第一类别标签;
[0008]基于预构建的文本类别识别模型,确定初始文档所属的文本类别第二类别标签;
[0009]对第一类别标签和第二类别标签进行融合,得到融合标签;
[0010]依据融合标签对初始文档进行标注,得到带有融合标签的目标文档。
[0011]第二方面,提供了一种多标签文档分类装置,该装置包括:
[0012]未标注文档确定模块,用于确定待标注的初始文档;
[0013]强化类别确定模块,用于在预设的多种文本类别中,确定待强化的若干种目标文档类别;
[0014]第一标签确定模块,用于基于若干种目标文档类别,确定初始文档所属目标文档类别的第一类别标签;
[0015]第二标签确定模块,用于基于预构建的文本类别识别模型,确定初始文档所属的文本类别第二类别标签;
[0016]多标签融合处理模块,用于对第一类别标签和第二类别标签进行融合,得到融合标签;
[0017]融合标签标注模块,用于依据融合标签对初始文档进行标注,得到带有融合标签的目标文档。
[0018]第三方面,提供了一种电子设备,该电子设备包括:
[0019]一个或多个处理器;
[0020]存储器;
[0021]一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行上述多标签文档分类方法。
[0022]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述多标签文档分类方法。
[0023]本申请实施例确定待标注的初始文档,在预设的多种文本类别中,确定待强化的若干种目标文档类别,基于若干种目标文档类别,确定初始文档所属目标文档类别的第一类别标签,基于预构建的文本类别识别模型,确定初始文档所属的文本类别第二类别标签,从而对第一类别标签和第二类别标签进行融合,得到融合标签,并依据融合标签对初始文档进行标注,得到带有融合标签的目标文档,这种通过在预设的多种文本类别中筛选待强化的目标文档类别来识别初始文档的第一类别标签的方式,起到了解决相关多标签分类技术中存在长尾分布的问题,而文本类别识别模型的设置则起到了识别初始文档的第二类别标签的效果,达到了利用机器学习技术实现文档分类的自动化、智能化识别的目的,进而通过两种类别标签的融合,不仅实现了均衡文档分类,避免某些文本类别数量过多或多差的问题,还提高了文档分类的质量。
附图说明
[0024]为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
[0025]图1为本申请实施例提供的一种多标签文档分类方法的流程示意图;
[0026]图2为本申请实施例提供的一种多标签文档分类方法的应用流程示意图;
[0027]图3为本申请实施例提供的一种多标签文档分类方法中分布统计结果示意图;以及
[0028]图4为本申请实施例提供的一种多标签文档分类装置的结构示意图。
具体实施方式
[0029]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
[0030]本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0031]下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
[0032]本申请实施例提供了一种多标签文档分类方法,如图1所示,该方法包括:步骤
S101至步骤S106。
[0033]步骤S101、确定待标注的初始文档。
[0034]具体地,可以通过对指定存储空间的读取来确定待标注的初始文档;或者通过预设接口实时获取到的待标注的初始文档。
[0035]本申请实施例中,初始文档用于表征未携带有业务类别的文本。
[0036]步骤S102、在预设的多种文本类别中,确定待强化的若干种目标文档类别。
[0037]具体地,可以根据业务场景来配置文本类别。例如,假设业务场景为与资金业务有关的贷款,那么针对贷款的文本类别可以包括个人贷款、企业贷款、房地产贷款、汽车贷款等。
[0038]由于同一个文档可以对应多个文本类别,即存在同一个文档属于多个文档类别的情形,这就使得不同文档类别各自对应的文档的数量不同,存在长尾分布的问题。为了解决这个问题,本申请通过对多种文本类别的筛选,得到文档数量较少的文档类别,即待强化的若干种目标文档类别。例如,假设属于个人贷款的文档数量为10万个、属于企业贷款的文档数量为9万个,属于房地产贷款的文档数量为1000个,属于汽车贷款的文档数量为999个,那么待强化的目标文档类别为房地产贷款和汽车贷款。
[0039]步骤S103、基于若干种目标文档类别,确定初始文档所属目标文档类别的第一类别标签。
[0040]具体地,可以通过不同目标文档类别各自的预设规则(如关键词)对初始文档进行本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种多标签文档分类方法,其特征在于,包括:确定待标注的初始文档;在预设的多种文本类别中,确定待强化的若干种目标文档类别;基于若干种目标文档类别,确定所述初始文档所属目标文档类别的第一类别标签;基于预构建的文本类别识别模型,确定所述初始文档所属的文本类别第二类别标签;对所述第一类别标签和所述第二类别标签进行融合,得到融合标签;依据所述融合标签对所述初始文档进行标注,得到带有融合标签的目标文档。2.根据权利要求1所述的方法,其特征在于,所述在预设的多种文本类别中,确定待强化的若干种目标文档类别的步骤,包括:对预存储的文本数据库进行数量统计,得到多种文本类别分别对应的文档数量,其中,所述文本数据库包括若干文本,以及若干文本各自所属的文本类别;依据多种文本类别分别对应的文档数量,确定文档数量排名最后的预定数值个文本类别作为待强化的所述目标文档类别。3.根据权利要求2所述的方法,其特征在于,所述依据多种文本类别分别对应的文档数量,确定文档数量排名最后的若干种文本类别作为待强化的若干种所述目标文档类别的步骤,包括:基于预设的多种业务场景,确定所选定的目标业务场景;依据所述目标业务场景,确定所述预定数值个。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:将所述目标文档存储至针对所述目标业务场景的数据库。5.根据权利要求1所述的方法,其特征在于,所述基于预构建的文本标签模型,确定所述初始文档的第二类别标签的步骤之前,所述方法还包括:获取具有类别标签的若干文本;利用具有类别标签的若干文本对预设的初始模型进行训练,得到训练好的文本标签模型。6.根据权利要求1所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:贾敬伍,蒋宁,周长安,
申请(专利权)人:北京中关村科金技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。