文本分类方法及获得的文本分类器技术

技术编号:15822809 阅读:71 留言:0更新日期:2017-07-15 04:59
本发明专利技术技术方案公开了一种获得用于自动标注语料的文本分类器方法及文本分类器,该方法包括确定概念集合,用每个概念对应的概念关键词集合中的概念关键词对未标注语料文本进行匹配并自动标注处理;对于每个概念,当该概念对应的标注语料文本集合中文本数量符合阈值条件时,则对该概念进行训练相对应的文本分类模型,得到对应的文本分类器,最终获得所有文本数量符合阈值条件的与该概念对应的文本分类器集合。本发明专利技术的方法提供一种算法结构,具有普适性,可灵活地改变分类体系,节约了计算时间和资源,并且本发明专利技术提供少量的初始语料文本即可,且自动标注,无需人工标注,进一步节约时间和成本。

【技术实现步骤摘要】
文本分类方法及获得的文本分类器
本专利技术涉及人工智能的文本分类
,具体涉及一种文本分类方法及获得的文本分类器。
技术介绍
随着网络技术的快速发展,对于电子文本信息进行有效地组织和管理,并能快速、准确且全面地从中找到相关信息的要求越来越高。文本分类作为处理和组织大量文本数据的关键技术,在较大程度上解决了信息杂乱的问题,方便用户准确地获取所需的信息,是信息过滤、信息检索、搜索引擎及文本数据库等领域的技术基础。文本分类一般包括对文本的表达、文本分类器的选择及训练、文本分类结果的评价与反馈等过程。现有的文本分类技术通常按照以下步骤实施:(1)确定分类体系;(2)收集待标注语料,形成语料库;(3)用语料库训练分类模型;(4)用训练好的分类模型对新文本进行分类。但是,对于以下几种应用场景,1)对于文本分类体系不均衡,有的类别范畴很大,有的类别范畴很小,如一个类别是“汽车行业”,而另一个类别是“锂电池”等的应用场景;2)对于易于获得大量的未标注语料,而获得标注语料的成本较高的应用场景;3)对于分类体系经常变化,经常新增类别或删除类别的应用场景,现有的文本分类技术存在有以下的缺陷:(1)在分类体系方面,现有技术都是采用固定的分类体系,即确定分类体系后不能随便改变。如若需要改变分类体系,需要重新收集语料,重新训练所有类别的分类模型,此过程需大量的时间和计算资源。(2)在语料库方面,现有技术需基于一定规模的标注好类别的文本作为训练语料,而对于标注好类别的文本,往往需要花费大量的人工先进行标注处理,从而增加了投入成本。
技术实现思路
本专利技术针对现有技术中文本分类技术的分类体系不能随意改变,如需改变分类体系需要耗费较多的时间和计算资源,且语料需人工进行标注,需要投入成本较高且耗时长的缺陷,目的在于提供一种可以灵活改变分类体系且自动进行标注文本的文本分类方法,大大地节省了计算资源、时间和成本。实现上述目的的技术方案是:本专利技术获得用于自动标注语料的文本分类器的方法,该方法包括:概念确定步骤Ⅰ,确定概念集合,概念集合中的每个概念对应具有至少一个概念关键词的概念关键词集合;语料自动标注步骤Ⅱ,利用概念集合中每个概念对应的概念关键词集合中的概念关键词对未标注语料文本集合进行匹配处理,并用相应的概念对未标注语料文本集合中的文本进行关联与自动标注处理,获得标注语料文本集合;“标注语料文本集合”包括下列2类文本,第1类为:与概念集合中任一概念相关联并用该概念进行标注了的文本;第2类为:与概念集合中任何概念均不相关联的其他文本,但是该类其他文本由于与已经确定的概念均不关联,可以用“其他”进行标注、或者不做任何标注、或者用其他不与概念词语混淆的词语进行标注的文本等等,只要能清晰表明这类文本是能够与第1类文本进行区分的任何词语即可。分类模型训练步骤Ⅲ,对于概念集合中的每个概念,当与该概念关联的标注语料文本集合中文本数量符合阈值条件时,则将与该概念关联的标注语料文本集合中的文本作为文本分类模型的正例,不与该概念关联的标注语料文本集合中的文本作为文本分类模型的负例,对该概念对应的文本分类模型的正例和负例进行训练,得到该概念对应的文本分类器,最终获得所有文本数量符合阈值条件的概念对应的文本分类器。在本专利技术的一较佳实施例中,概念确定步骤Ⅰ中,确定概念集合X由概念xi组成,其中i=1,2,3,…n,概念集合X中的每个概念xi对应具有至少一个概念关键词组成的概念关键词集合Yi。在本专利技术的一较佳实施例中,语料自动标注步骤Ⅱ包括:步骤Ⅱ1,根据具体实际应用情况收集足够数量N的未标注语料,记未标注语料文本集合为D={dj},其中j=1,2,…,N;步骤Ⅱ2,利用每个概念xi对应的概念关键词集合Yi中的概念关键词对未标注语料文本集合D中的每篇文本分别进行匹配处理,当未标注语料文本集合D中的某一篇文本dj与概念xi对应的概念关键词的匹配情况满足匹配条件时,则将该篇文本dj标注为与该概念xi相关联;对未标注语料文本集合D中每篇文本进行匹配处理得到标注语料文本集合C。在本专利技术的一较佳实施例中,分类模型训练步骤Ⅲ包括:步骤Ⅲ1,将概念集合X划分为两个互为补集的概念子集合XA和概念子集合XB,划分原则是,若标注语料文本集合C中与概念xi相关联的标注语料文本数量大于或等于阈值α时,则将该概念xi划分入概念子集合XA中,与该概念xi相关联的标注语料文本集合记为Ai;若小于阈值α时,则将该概念xi划分入概念子集合XB中;步骤Ⅲ2,将概念子集合XA中的概念xi对应的标注语料文本集合Ai作为训练分类模型的正例,从标注语料文本集合C中随机抽出k篇不属于标注语料文本集合Ai中的文本记为标注语料文本集合Ai',作为训练分类模型的负例;步骤Ⅲ3,采用朴素贝叶斯、支持向量机或逻辑回归的文本分类模型对标注语料文本集合Ai和Ai'训练概念xi对应的文本分类器记为mi;训练出的概念子集合XA中的每个概念xi对应的文本分类器集合记为M0。在本专利技术的一较佳实施例中,分类模型训练步骤Ⅲ还包括:步骤Ⅲ4,利用文本分类器集合M0中的分别与每个概念xi对应的文本分类器mi对未标注语料文本集合D中的文本进行分类处理即关联与标注处理,得到相应的文本分类结果,该文本分类结果单独存放,不影响标注语料文本集合C;步骤Ⅲ5,对于概念子集合XA中的每个概念xi,用文本分类器mi计算文本对应到概念xi的概率,从文本分类结果中选出对应到概念xi的概率大于阈值β的文本,将其加入到概念xi对应的标注语料文本集合Ai中,形成新的标注语料集合Ai;步骤Ⅲ6,对于新的标注语料集合Ai,重复步骤Ⅲ2~Ⅲ52~10次,得到符合要求的概念xi对应的文本分类器mi,从而获得最终符合要求的文本分类器集合M;或对于新的标注语料集合Ai,人工匹配评估获得符合要求的概念xi对应的文本分类器mi,从而得到最终符合要求的文本分类器集合M。在本专利技术的一较佳实施例中,分类模型训练步骤Ⅲ3中:采用支持向量机的文本分类模型对标注语料文本集合Ai和Ai'训练针对概念xi的文本分类器。在本专利技术的一较佳实施例中,分类模型训练步骤Ⅲ5中:步骤Ⅲ5中的阈值β取值范围为0.1~0.5;步骤Ⅲ6中,重复步骤Ⅲ2~Ⅲ55~10次。在本专利技术的一较佳实施例中,分类模型训练步骤Ⅲ6中:人工匹配评估是指对于概念xi,从标注语料集合Ai中随机抽取若干篇文本,再从标注语料文本集合C中随机抽取若干篇不与该概念xi关联的文本,对抽取的所有文本K重新进行人工标注,得到标准分类结果;在步骤Ⅲ3每次训练出文本分类器mi后,用文本分类器mi对抽取的所有文本K另行进行分类处理得到临时分类结果,即使用概念xi对应的文本分类器mi计算所有文本K中的每篇文本关联到概念xi的概率,若概率大于阈值β,则将该文本标注为与概念xi关联的文本;将临时分类结果和标准分类结果进行比较,计算临时分类结果的准确率,当准确率大于或等于阈值γ时,则该文本分类器mi为符合要求的文本分类器;当准确率低于阈值γ时,则重新进行概念确定步骤Ⅰ,即重新确定概念xi对应的至少一个新的概念关键词,形成新的概念关键词集合Yi,和/或,重新确定步骤Ⅱ2的匹配条件;当有重新进行概念确定步骤Ⅰ时,根据新的概念关键词集合Yi进行步骤Ⅱ2获得新的标注本文档来自技高网...
文本分类方法及获得的文本分类器

【技术保护点】
一种获得用于自动标注语料的文本分类器的方法,其特征在于,该方法包括:概念确定步骤Ⅰ,确定概念集合,概念集合中的每个概念对应具有至少一个概念关键词的概念关键词集合;语料自动标注步骤Ⅱ,利用概念集合中每个概念对应的概念关键词集合中的概念关键词对未标注语料文本集合进行匹配处理,并用相应的概念对未标注语料文本集合中的文本进行关联与自动标注处理,获得标注语料文本集合;分类模型训练步骤Ⅲ,对于概念集合中的每个概念,当与该概念关联的标注语料文本集合中文本数量符合阈值条件时,则将与该概念关联的标注语料文本集合作为文本分类模型的正例,不与该概念关联的标注语料文本集合作为文本分类模型的负例,对该概念对应的文本分类模型的正例和负例进行训练,得到该概念对应的文本分类器,最终获得所有文本数量符合阈值条件的概念对应的文本分类器。

【技术特征摘要】
1.一种获得用于自动标注语料的文本分类器的方法,其特征在于,该方法包括:概念确定步骤Ⅰ,确定概念集合,概念集合中的每个概念对应具有至少一个概念关键词的概念关键词集合;语料自动标注步骤Ⅱ,利用概念集合中每个概念对应的概念关键词集合中的概念关键词对未标注语料文本集合进行匹配处理,并用相应的概念对未标注语料文本集合中的文本进行关联与自动标注处理,获得标注语料文本集合;分类模型训练步骤Ⅲ,对于概念集合中的每个概念,当与该概念关联的标注语料文本集合中文本数量符合阈值条件时,则将与该概念关联的标注语料文本集合作为文本分类模型的正例,不与该概念关联的标注语料文本集合作为文本分类模型的负例,对该概念对应的文本分类模型的正例和负例进行训练,得到该概念对应的文本分类器,最终获得所有文本数量符合阈值条件的概念对应的文本分类器。2.如权利要求1所述的方法,其特征在于,概念确定步骤Ⅰ中,确定概念集合X由概念xi组成,其中i=1,2,3,…n,概念集合X中的每个概念xi对应具有至少一个概念关键词组成的概念关键词集合Yi。3.如权利要求2所述的方法,其特征在于,语料自动标注步骤Ⅱ包括:步骤Ⅱ1,根据具体实际应用情况收集足够数量N的未标注语料,记未标注语料文本集合为D={dj},其中j=1,2,…,N;步骤Ⅱ2,利用每个概念xi对应的概念关键词集合Yi中的概念关键词对未标注语料文本集合D中的每篇文本分别进行匹配处理,当未标注语料文本集合D中的某一篇文本dj与概念xi对应的概念关键词的匹配情况满足匹配条件时,则将该篇文本dj标注为与该概念xi相关联;对未标注语料文本集合D中每篇文本进行匹配处理得到标注语料文本集合C。4.如权利要求3所述的方法,其特征在于,分类模型训练步骤Ⅲ包括:步骤Ⅲ1,将概念集合X划分为两个互为补集的概念子集合XA和概念子集合XB,划分原则是,若标注语料文本集合C中与概念xi相关联的标注语料文本数量大于或等于阈值α时,则将该概念xi划分入概念子集合XA中,与该概念xi相关联的标注语料文本集合记为Ai;若小于阈值α时,则将该概念xi划分入概念子集合XB中;步骤Ⅲ2,将概念子集合XA中的概念xi对应的标注语料文本集合Ai作为训练分类模型的正例,从标注语料文本集合C中随机抽出k篇不属于标注语料文本集合Ai中的文本记为标注语料文本集合Ai',作为训练分类模型的负例;步骤Ⅲ3,采用朴素贝叶斯、支持向量机或逻辑回归的文本分类模型对标注语料文本集合Ai和Ai'训练概念xi对应的文本分类器,记为mi;训练出的概念子集合XA中的每个概念xi对应的文本分类器集合记为M0。5.如权利要求4所述的方法,其特征在于,分类模型训练步骤Ⅲ还包括:步骤Ⅲ4,利用文本分类器集合M0中的分别与每个概念xi对应的文本分类器mi对未标注语料文本集合D中的文本进行分类处理即关联与标注处理,得到相应的文本分类结果,该文本分类结果单独存放;步骤Ⅲ5,对于概念子集合XA中的每个概念xi,用文本分类器mi计算文本对应到概念xi的概率,从文本分类结果中选出对应到概念xi的概率大于阈值β的文本,将其加入到概念xi对应的标注语料文本集合Ai中,形成新的标注语料集合Ai;步骤Ⅲ6,对于新的标注语料集合Ai,重复步骤Ⅲ2~Ⅲ52~10次,得到符合要求的概念xi对应的文本分类器mi,从而获得最终符合要求的文本分类器集合M;或对于新的标注语料集合Ai,人工匹配评估获得符合要求的概念xi对应的文本分类器mi,从而得到最终符合要求的文本分类器集合M。6.如权利要求4所述的方法,其特征在于,分类模型训练步骤Ⅲ3中:采用支持向量机的文本分类模型对标注语料文本集合Ai和Ai'训练针对概念xi的文本分类器。7.如权利要求5所述的方法,其特征在于,分类模型训练步骤Ⅲ5中:步骤Ⅲ5中的阈值β取值范围为0.1~0.5;步骤Ⅲ6中,重复步骤Ⅲ2~Ⅲ55~10次。8.如权利要求5所述的方法,其特征在于,分类模型训练步骤Ⅲ6中:人工匹配评估是指对于概念xi,从标注语料集合Ai中随机抽取若干篇文本,再从标注语料文本集合C中随机抽取若干篇不与该概念xi关联的文本,对抽取的所有文本K重新进行人工标注,得到标准分类结果;在步骤Ⅲ3每次训练出文本分类器mi后,用文本分类器mi对抽取的所有文本K另行进行分类处理得到临时分类结果,即使用概念xi对应的文本分类器mi计算所有文本K中的每篇文本关联到概念xi的概率,若概率大于阈值β,则将该文本标注为与概念xi关联的文本;将临时分类结果和标准分类结果进行比较,计算临时分类结果的准确率,当准确率大于或等于阈值γ时,则该文本分类器mi为符合要求的文本分类器;当准确率低于阈值γ时,则重新进行概念确定步骤Ⅰ,即重新确定概念xi对应的至少一个新的概念关键词,形成新的概念关键词集合Yi,和/或,重新确定步骤Ⅱ2的匹配条件;当有重新进行概念确定步骤Ⅰ时,根据新的概念关键词集合Yi进行步骤Ⅱ2获得新的标注语料文本集合C;将标注语料文本集合C进行步骤Ⅲ1获得新的概念子集合XA和新的概念子集合XB;对新的概念子集合XA和新的概念子集合XB继续进行步骤Ⅲ2~Ⅲ6,直至当文本分类器mi临时分类结果的准确率大于或等于阈值γ,则该文本分类器mi为符合要求的文本分类器;当仅仅有重新确定步骤Ⅱ2的匹配条件时,从步骤Ⅱ2开始直至该文本分类器mi为符合要求的文本分...

【专利技术属性】
技术研发人员:贾宁夏磊
申请(专利权)人:数库上海科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1