一种基于大语言模型的中文超长文本的分类方法技术

技术编号：41987230 阅读：19 留言：0更新日期：2024-07-12 12:15

本发明专利技术公开了一种基于大语言模型的中文超长文本的分类方法，涉及超长文本处理技术领域，包括以下步骤：(1)获取中文超长文本分类数据以及对应的分类标签；(2)对中文超长文本数据预处理；(3)定义大语言模型的下游任务模型；(4)对中文长文本使用大语言模型BERT进行微调；(5)用训练好的模型权重对中文超长文本预测类别。本发明专利技术的基于大语言模型的中文超长文本的分类方法在工程应用中可显著提高中文超长文本分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及超长文本处理，具体是涉及一种基于大语言模型的中文超长文本的分类方法。

技术介绍

1、随着互联网的发展，人们在日常生活中产生的文本数据量越来越大，网络上的文本数据日益增长，采用文本分类技术对海量数据进行科学地组织和管理显得尤为重要。文本分类常用于数字化图书馆、邮件过滤等领域，为文本资源的查询、检索提供了有力支撑，是当前的主要研究热点之一。如何高效地对这些文本进行分类成为了一个重要的问题。目前，已有一些研究者提出了一些基于传统机器学习、深度学习等方法的文本分类技术，但这些方法存在一些问题，如对超长文本的处理能力不足、对文本语义理解能力不足等。

2、许多基于传统的机器学习和深度学习的文本分类方法只在特定的、清洗较为干净的数据集上效果较好，但在实际工程应用中分类的准确率较低。

3、现有技术中，具体存在以下两个缺点：

4、(1)中文文本长度过长，若每行文本长度为几千，但是大语言模型bert的最大长度较短，模型加载数据时会直接删除大部分数据，丢弃了大部分数据特征，留下的数据特征量较少，可能删去的数据才是文本的关键内容，大大降低的文本分类的准确率。

5、(2)部分模型在学术上对超长中文文本的鲁棒性较好，但是在实际工程应用中效果较差，达不到应用标准。

技术实现思路

1、本专利技术为了解决现有模型处理中文超长文本分类准确率较低的问题，提出了一种基于大语言模型的中文超长文本分类的方法，旨在工程应用中提高中文超长文本分类的准确率。