System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本分类方法、装置和电子设备制造方法及图纸_技高网

文本分类方法、装置和电子设备制造方法及图纸

技术编号:41508016 阅读:3 留言:0更新日期:2024-05-30 14:47
本申请涉及文本分类方法、装置和电子设备,包括获取待分类文本,提取所述待分类文本的标题关键序列,根据预设规则对所述标题关键序列进行分类分析,得到标题关键序列分类结果,根据所述待分类文本的文本内容生成摘要,提取所述摘要的摘要关键序列,根据预设规则对所述摘要关键序列进行分类分析,得到摘要关键序列分类结果,根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果。通过结合大模型技术及传统算法,对文本分类方法进行改进,提高文本分类的准确率,并很大程度提高文本分类算法的研发效率。

【技术实现步骤摘要】

本申请涉及文本分类领域,尤其涉及一种文本分类方法、装置和电子设备


技术介绍

1、文本分类作为一个有广泛应用场景的任务。包括情感分析、垃圾邮件分类和新闻分类等,其中情感分析是对于电商网站、社交媒体等网站上的用户评论或者社交网络上的微博、推特等文本信息,可以使用文本分类算法来分析情感倾向(正面或负面),为企业提供客户满意度分析、产品质量评估等功能;垃圾邮件分类是使用文本分类算法可以对电子邮件进行分类,将垃圾邮件和正常邮件区分开来,帮助用户过滤垃圾邮件;新闻分类是对于新闻网站、博客等,可以使用文本分类算法将新闻分类到不同的类别(如体育、娱乐、财经、科技等),方便用户快速浏览、检索所感兴趣的新闻。不仅如此,文本分类算法也可以用于其他领域,如医学文献分类、法律文件分类等。

2、在以往的时间中,文本分类是自然语言处理的一个基本任务,目的是试图推断出给定的文本(句子、文档等)的标签或标签集合。传统机器学习时代的主流分类器主要是基于naive bayes,maximum entropy、k-nn和svm等算法。在深度学习时代,主流文本分类器主要是基于textcnn、rcnn、bert等算法。随着算法技术的发展,文本分类的准确率不断提升,但上述工作都需要提前收集清洗数据集,并对数据进行标注等大量工作。


技术实现思路

1、有鉴于此,本申请提出了一种文本分类方法,以解决上述
技术介绍
所体现的问题。

2、根据本申请的一方面,提供了一种文本分类方法,包括:

3、获取待分类文本;

4、提取所述待分类文本的标题关键序列,根据预设规则对所述标题关键序列进行分类分析,得到标题关键序列分类结果;

5、根据所述待分类文本的文本内容生成摘要,提取所述摘要的摘要关键序列,根据预设规则对所述摘要关键序列进行分类分析,得到摘要关键序列分类结果;

6、根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果。

7、作为本申请的一种可选实施方案,提取所述待分类文本的标题关键序列,包括:

8、提取所述待分类文本的标题;

9、将所述标题进行分词处理,并从已分词的所述标题中提取标题关键序列。

10、作为本申请的一种可选实施方案,根据预设规则对所述标题关键序列进行分类分析,得到标题关键序列分类结果,包括:

11、根据所述标题关键序列匹配所述预设规则中的关键字;

12、获取所述关键字对应的分类类别,得到标题关键序列分类结果。

13、作为本申请的一种可选实施方案,根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果,包括:

14、提取所述待分类文本的标题,将所述标题进行标题分类分析,得到标题分类结果;

15、提取所述待分类文本的摘要,将所述摘要进行摘要分类分析,得到摘要分类结果;

16、根据所述标题关键序列分类结果、所述标题分类结果、所述摘要关键序列分类结果和所述摘要分类结果进行分类分析,得到所述待分类文本的文本分类结果。

17、作为本申请的一种可选实施方案,所述预设规则包括:

18、预设关键字;

19、预设分类类别;

20、根据所述关键字和所述分类类别建立映射关系。

21、作为本申请的一种可选实施方案,还包括:

22、采用正向最大匹配法、逆向最大匹配法和双向匹配分词法中的至少一种方法进行分词处理。

23、作为本申请的一种可选实施方案,还包括:

24、采用有监督、半监督和无监督中的至少一种方法进行提取所述标题关键序列或所述摘要关键序列。

25、本申请还提供了一种文本分类装置,包括:

26、获取文本模块,用于获取待分类文本;

27、标题关键序列分类模块,用于提取所述待分类文本的标题关键序列,根据预设规则对所述标题关键序列进行分类分析,得到标题关键序列分类结果;

28、摘要关键序列分类模块,用于根据所述待分类文本的文本内容生成摘要,提取所述摘要的摘要关键序列,根据预设规则对所述摘要关键序列进行分类分析,得到摘要关键序列分类结果;

29、文本分类模块,用于根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果。

30、作为本申请的一种可选实施方案,文本分类模块,用于根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果,包括:

31、标题分类模块,用于提取所述待分类文本的标题,将所述标题进行标题分类分析,得到标题分类结果;

32、摘要分类模块,用于提取所述待分类文本的摘要,将所述摘要进行摘要分类分析,得到摘要分类结果;

33、文本分类分析模块,用于根据所述标题关键序列分类结果、所述标题分类结果、所述摘要关键序列分类结果和所述摘要分类结果进行分类分析,得到所述待分类文本的文本分类结果。

34、本申请还提供了一种电子设备,包括:

35、处理器;

36、用于存储处理器可执行指令的存储器;

37、其中,所述处理器被配置为执行所述可执行指令时实现上述所述的文本分类方法。

38、本申请的有益效果:

39、本专利技术通过获取待分类文本,提取所述待分类文本的标题关键序列,根据预设规则对所述标题关键序列进行分类分析,得到标题关键序列分类结果,根据所述待分类文本的文本内容生成摘要,提取所述摘要的摘要关键序列,根据预设规则对所述摘要关键序列进行分类分析,得到摘要关键序列分类结果,根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果。结合大模型技术及传统算法,对文本分类方法进行改进,提高文本分类的准确率,并很大程度提高文本分类算法的研发效率。

40、根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。

本文档来自技高网...

【技术保护点】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的文本分类方法,其特征在于,提取所述待分类文本的标题关键序列,包括:

3.根据权利要求1所述的文本分类方法,其特征在于,根据预设规则对所述标题关键序列进行分类分析,得到标题关键序列分类结果,包括:

4.根据权利要求1所述的文本分类方法,其特征在于,根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果,包括:

5.根据权利要求1-4任一项所述的文本分类方法,其特征在于,所述预设规则包括:

6.根据权利要求5所述的文本分类方法,其特征在于,还包括:

7.根据权利要求5所述的文本分类方法,其特征在于,还包括:

8.一种文本分类装置,其特征在于,包括:

9.根据权利要求8所述的文本分类装置,其特征在于,文本分类模块,用于根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果,包括:

10.一种电子设备,其特征在于,包括:>...

【技术特征摘要】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的文本分类方法,其特征在于,提取所述待分类文本的标题关键序列,包括:

3.根据权利要求1所述的文本分类方法,其特征在于,根据预设规则对所述标题关键序列进行分类分析,得到标题关键序列分类结果,包括:

4.根据权利要求1所述的文本分类方法,其特征在于,根据所述标题关键序列分类结果和所述摘要关键序列分类结果进行分类分析,得到所述待分类文本的文本分类结果,包括:

5.根据权利要求1-4任...

【专利技术属性】
技术研发人员:谢文飞孟得力柳振良
申请(专利权)人:云南白药集团医药电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1