一种文档自动归类方法、系统、计算机设备及存储介质技术方案

技术编号：26730686 阅读：23 留言：0更新日期：2020-12-15 14:31

本发明专利技术公开了一种文档自动归类方法、系统、计算机设备及存储介质，其中文档自动归类方法先根据相似文本数据训练语言模型：分为两个层次的预训练，首先通过未标注文本数据训练语言模型，然后根据标注数据即相似文本数据，在所述语言模型的基础上训练得到语义编码器；再基于语义编码器进行归档分类：采用最近邻的思想，基于所述语义编码器，使用无监督的方法在小数据集上对文本进行归类。本发明专利技术在大量通用领域数据上训练通用的语义编码器，可以有效编码语义，在新的实际场景的极小数据集上可以不另行训练，避免过拟合现象导致泛化能力差。增删文档或修改分类体系只需要对涉及的文档或分类进行变更操作后即可生效，不需要重新训练模型，时效性好。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档自动归类方法、系统、计算机设备及存储介质
本专利技术涉及自然语言处理
，尤其涉及一种文档自动归类方法、系统、计算机设备及存储介质。
技术介绍
文档归类系统属于文本分类应用，其通过模型将输入文本自动归类为某个分类下。文档归类常常应用于特定的较为狭窄的专业领域中，因而面对以下两种问题：1.标注数据少。很多领域应用由于专业性较强或保密要求等因素，在公开领域中很难收集数据，在应用时，部分类别甚至只有几篇文档；2.在实际应用中，用户在使用过程中会动态增删数据甚至改变分类体系。普通的基于监督学习分类的分类模型如Fasttext、textCNN及基于BERT的文本分类应用均采用同一个模式：针对一个分类体系获取训练数据，然后训练模型，训练结束后方可进行文档分类的预测。在拥有充分标注数据的场景下，此方案是适用的；但这样的方案直接应用于标注数据稀少的专业领域内的文档归类则存在下列不足：1.在小数据量情况下极容易过拟合，造成模型泛化能力下降，预测效果差；2.在动态增删数据或分类体系的情况下需要频繁训练更改模型，对硬件造成很大压力。
技术实现思路
为了解决上述问题，本专利技术提出一种文档自动归类方法、系统、计算机设备及存储介质，将泛化能力强的基于大量数据的预训练模型语义模型应用在小数据场景，避免过拟合；同时应用了最近邻聚类的思想寻找分类，避免在实际应用中频繁重新训练模型。本专利技术的一种文档自动归类方法，包括以下步骤：S1.根据相似文本数据训练语言模型...

【技术保护点】
1.一种文档自动归类方法，其特征在于，包括以下步骤：/nS1.根据相似文本数据训练语言模型：分为两个层次的预训练，首先通过未标注文本数据训练语言模型，然后根据标注数据即相似文本数据，在所述语言模型的基础上训练得到语义编码器；/nS2.基于语义编码器进行归档分类：采用最近邻的思想，基于所述语义编码器，使用无监督的方法在小数据集上对文本进行归类。/n

【技术特征摘要】
1.一种文档自动归类方法，其特征在于，包括以下步骤：
S1.根据相似文本数据训练语言模型：分为两个层次的预训练，首先通过未标注文本数据训练语言模型，然后根据标注数据即相似文本数据，在所述语言模型的基础上训练得到语义编码器；
S2.基于语义编码器进行归档分类：采用最近邻的思想，基于所述语义编码器，使用无监督的方法在小数据集上对文本进行归类。

2.根据权利要求1所述的一种文档自动归类方法，其特征在于，步骤S1包括以下子步骤：
S101.采用未标注文本数据进行训练：选择基于自注意力架构的语言模型，在未标注文本数据上用所述语言模型进行训练，使所述语言模型学习到目标语言的常识；
S102.采用相似文本数据进行训练：获取通用领域的相似文本数据，形成包括锚点文本和相似文本的相似文本对，针对每一个相似文本对，在语料库中随机取一个不相似文本，组成一条包括锚点文本、相似文本和不相似文本的训练数据，使锚点文本与相似文本在语义上是相关的，且与不相似文本在语义上是不相关的；将若干条所述训练数据基于所述语言模型进行训练，锚点文本、相似文本和不相似文本分别输入同一个所述语言模型，并分别得到表征各自语义的向量Va,Vp,Vn，然后计算三元损失函数，得到损失并以此再训练所述语言模型得到语义编码器。

3.根据权利要求2所述的一种文档自动归类方法，其特征在于，所述三元损失函数的表达式如下：
loss＝max{||Va-Vp||2-||Va-Vn||2+margin，0}
其中，loss为损失，||Va-Vp||2表示Va和Vp在空间中的距离，||Va-Vn||2表示Va和Vn在空间中的距离，margin为常数，表示一个期望的空间距离；所述三元损失函数会拉近锚点文本与相似文本的距离，疏远锚点文本与不相似文本间的距离。

4.根据权利要求3所述的一种文档自动归类方法，其特征在于，所述语义编码器能够学习到为文本进行语义编码的能力，即越相似的文本经过所述语义编码器编码得到的语义向量在空间中距离越近，反之则在...

【专利技术属性】
技术研发人员：侯聪，陈运文，纪达麒，韩伟，白良俊，文敏，
申请(专利权)人：达而观数据成都有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人