一种文档自动归类方法、系统、计算机设备及存储介质技术方案

技术编号:26730686 阅读:23 留言:0更新日期:2020-12-15 14:31
本发明专利技术公开了一种文档自动归类方法、系统、计算机设备及存储介质,其中文档自动归类方法先根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在所述语言模型的基础上训练得到语义编码器;再基于语义编码器进行归档分类:采用最近邻的思想,基于所述语义编码器,使用无监督的方法在小数据集上对文本进行归类。本发明专利技术在大量通用领域数据上训练通用的语义编码器,可以有效编码语义,在新的实际场景的极小数据集上可以不另行训练,避免过拟合现象导致泛化能力差。增删文档或修改分类体系只需要对涉及的文档或分类进行变更操作后即可生效,不需要重新训练模型,时效性好。

【技术实现步骤摘要】
一种文档自动归类方法、系统、计算机设备及存储介质
本专利技术涉及自然语言处理
,尤其涉及一种文档自动归类方法、系统、计算机设备及存储介质。
技术介绍
文档归类系统属于文本分类应用,其通过模型将输入文本自动归类为某个分类下。文档归类常常应用于特定的较为狭窄的专业领域中,因而面对以下两种问题:1.标注数据少。很多领域应用由于专业性较强或保密要求等因素,在公开领域中很难收集数据,在应用时,部分类别甚至只有几篇文档;2.在实际应用中,用户在使用过程中会动态增删数据甚至改变分类体系。普通的基于监督学习分类的分类模型如Fasttext、textCNN及基于BERT的文本分类应用均采用同一个模式:针对一个分类体系获取训练数据,然后训练模型,训练结束后方可进行文档分类的预测。在拥有充分标注数据的场景下,此方案是适用的;但这样的方案直接应用于标注数据稀少的专业领域内的文档归类则存在下列不足:1.在小数据量情况下极容易过拟合,造成模型泛化能力下降,预测效果差;2.在动态增删数据或分类体系的情况下需要频繁训练更改模型,对硬件造成很大压力。
技术实现思路
为了解决上述问题,本专利技术提出一种文档自动归类方法、系统、计算机设备及存储介质,将泛化能力强的基于大量数据的预训练模型语义模型应用在小数据场景,避免过拟合;同时应用了最近邻聚类的思想寻找分类,避免在实际应用中频繁重新训练模型。本专利技术的一种文档自动归类方法,包括以下步骤:S1.根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在所述语言模型的基础上训练得到语义编码器;S2.基于语义编码器进行归档分类:采用最近邻的思想,基于所述语义编码器,使用无监督的方法在小数据集上对文本进行归类。进一步的,步骤S1包括以下子步骤:S101.采用未标注文本数据进行训练:选择基于自注意力架构的语言模型,在未标注文本数据上用所述语言模型进行训练,使所述语言模型学习到目标语言的常识;S102.采用相似文本数据进行训练:获取通用领域的相似文本数据,形成包括锚点文本和相似文本的相似文本对,针对每一个相似文本对,在语料库中随机取一个不相似文本,组成一条包括锚点文本、相似文本和不相似文本的训练数据,使锚点文本与相似文本在语义上是相关的,且与不相似文本在语义上是不相关的;将若干条所述训练数据基于所述语言模型进行训练,锚点文本、相似文本和不相似文本分别输入同一个所述语言模型,并分别得到表征各自语义的向量Va,Vp,Vn,然后计算三元损失函数,得到损失并以此再训练所述语言模型得到语义编码器。进一步的,所述三元损失函数的表达式如下:loss=max{||Va-Vp||2-||Va-Vn||2+margin,0}其中,loss为损失,||Va-Vp||2表示Va和Vp在空间中的距离,||Va-Vn||2表示Va和Vn在空间中的距离,margin为常数,表示一个期望的空间距离;所述三元损失函数会拉近锚点文本与相似文本的距离,疏远锚点文本与不相似文本间的距离。进一步的,所述语义编码器能够学习到为文本进行语义编码的能力,即越相似的文本经过所述语义编码器编码得到的语义向量在空间中距离越近,反之则在空间中越远。进一步的,所述获取通用领域的相似文本数据包括:通过爬虫爬取网站的相似文本推荐信息。进一步的,步骤S2包括以下子步骤:S201.构建分类体系并给每个分类上传若干文档:将文档按分类上传至所述语义编码器,所述语义编码器将每个文档都编码得到语义向量,并按照分类体系存入向量数据库;每个分类下的语义向量构成一个向量集合,计算出此向量集合的簇中心作为此分类的特征向量;S202.新文档归类:使用者上传待归类文档,通过所述语义编码器进行语义向量编码,得到待归类文档的语义向量;在所述向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量,将待归类文档归为该特征向量所对应的分类。进一步的,使用者能够对分类体系或分类下的文档进行修改,修改后的分类的特征向量会相应改变。本专利技术的一种文档自动归类系统,包括语义编码器、向量数据库和向量检索模块;所述语义编码器,根据未标注文本数据和相似文本数据先后在语言模型的基础上训练得到,用于将已分类文档编码得到的语义向量按照分类体系存入所述向量数据库,以及将待归类文档编码得到的语义向量输出至所述向量检索模块;所述向量数据库中,每个分类下的语义向量构成一个向量集合,此向量集合的簇中心作为此分类的特征向量;所述向量检索模块,用于在所述向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量,并将待归类文档归为该特征向量所对应的分类。进一步的,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述文档自动归类方法的步骤。进一步的,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述文档自动归类方法的步骤。本专利技术的有益效果在于:1.本专利技术的文档自动归类方法中,第一步是离线进行的,通过两阶段的预训练得到一个能充分表征文本语义特征的语义编码器,大量的模型训练计算是在此步骤中离线进行的;第二步是在线进行的,通过最近邻的思想,使用无监督的方法在小数据集上对文本进行归类,同时在线部分由于采用了无监督的方法,可减轻硬件的压力。2.本专利技术在大量通用领域数据上训练通用的语义编码器,可以有效编码语义,在新的实际场景的极小数据集上可以不另行训练,避免过拟合现象导致泛化能力差。3.本专利技术增删文档或修改分类体系只需要对涉及的文档或分类进行变更操作后即可生效,不需要重新训练模型,时效性好,且对硬件要求低。附图说明图1是本专利技术实施例中训练数据基于语言模型进行训练的示意图;图2是本专利技术实施例中基于语义编码器进行归档分类的示意图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现说明本专利技术的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术,即所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1本实施例提供了一种文档自动归类方法,包括以下步骤:S1.根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在语言模型的基础上训练得到语义编码器;S2.基于语义编码器进行归档分类:采用最近邻的思想,基于语义编码器,使用无监督的方法在小数据集上对文本进行归类。其中,步骤S1是离线进行的,通过两阶段的预训练得到一个能充分表征文本语义特征的语义编码器,大量的模型训练计算是本文档来自技高网...

【技术保护点】
1.一种文档自动归类方法,其特征在于,包括以下步骤:/nS1.根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在所述语言模型的基础上训练得到语义编码器;/nS2.基于语义编码器进行归档分类:采用最近邻的思想,基于所述语义编码器,使用无监督的方法在小数据集上对文本进行归类。/n

【技术特征摘要】
1.一种文档自动归类方法,其特征在于,包括以下步骤:
S1.根据相似文本数据训练语言模型:分为两个层次的预训练,首先通过未标注文本数据训练语言模型,然后根据标注数据即相似文本数据,在所述语言模型的基础上训练得到语义编码器;
S2.基于语义编码器进行归档分类:采用最近邻的思想,基于所述语义编码器,使用无监督的方法在小数据集上对文本进行归类。


2.根据权利要求1所述的一种文档自动归类方法,其特征在于,步骤S1包括以下子步骤:
S101.采用未标注文本数据进行训练:选择基于自注意力架构的语言模型,在未标注文本数据上用所述语言模型进行训练,使所述语言模型学习到目标语言的常识;
S102.采用相似文本数据进行训练:获取通用领域的相似文本数据,形成包括锚点文本和相似文本的相似文本对,针对每一个相似文本对,在语料库中随机取一个不相似文本,组成一条包括锚点文本、相似文本和不相似文本的训练数据,使锚点文本与相似文本在语义上是相关的,且与不相似文本在语义上是不相关的;将若干条所述训练数据基于所述语言模型进行训练,锚点文本、相似文本和不相似文本分别输入同一个所述语言模型,并分别得到表征各自语义的向量Va,Vp,Vn,然后计算三元损失函数,得到损失并以此再训练所述语言模型得到语义编码器。


3.根据权利要求2所述的一种文档自动归类方法,其特征在于,所述三元损失函数的表达式如下:
loss=max{||Va-Vp||2-||Va-Vn||2+margin,0}
其中,loss为损失,||Va-Vp||2表示Va和Vp在空间中的距离,||Va-Vn||2表示Va和Vn在空间中的距离,margin为常数,表示一个期望的空间距离;所述三元损失函数会拉近锚点文本与相似文本的距离,疏远锚点文本与不相似文本间的距离。


4.根据权利要求3所述的一种文档自动归类方法,其特征在于,所述语义编码器能够学习到为文本进行语义编码的能力,即越相似的文本经过所述语义编码器编码得到的语义向量在空间中距离越近,反之则在...

【专利技术属性】
技术研发人员:侯聪陈运文纪达麒韩伟白良俊文敏
申请(专利权)人:达而观数据成都有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1