System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文本分类,特别是涉及一种无监督非参数化文本分类方法、装置和计算机设备。
技术介绍
1、随着计算机技术的快速发展,当前已经进入大数据时代,相应地,文本数据的爆炸性增长对文本分类技术提出了更高的要求。文本分类是自然语言处理中的一项重要任务,文本分类被广泛应用于信息检索、舆情分析、内容推荐等领域中。
2、目前,传统的文本分类技术通常依赖于监督学习,从而地,在具体实现中,传统的文本分类技术往往需要消耗大量的标注数据获取成本和计算资源。显然地,传统的文本分类技术的技术性限制导致了在计算机资源受限的场合中,文本分类效率和准确度均难以得到提高。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高文本分类效率和准确度的无监督非参数化文本分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种无监督非参数化文本分类方法。所述方法包括:
3、获取训练集和测试集;训练集中包括分别对应有训练标签的多个训练文本;
4、在测试集包括的多个测试文本中确定待分类文本;
5、基于待分类文本和目标es索引,在训练集中检索候选文本列表;目标es索引与训练集对应;
6、将待分类文本和候选文本列表分别输入至第一分类模块、第二分类模块以及第三分类模块中,分别得到第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签;第一分类模块、第二分类模块以及第三分类模块分别对应不同的无监督非参数
7、基于第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签,计算待分类文本的第一数量个分类标签。
8、第二方面,本申请还提供了一种无监督非参数化文本分类装置。所述装置包括:
9、获取模块,用于获取训练集和测试集;训练集中包括分别对应有训练标签的多个训练文本;在测试集包括的多个测试文本中确定待分类文本;
10、es检索模块,用于基于待分类文本和目标es索引,在训练集中检索候选文本列表;目标es索引与训练集对应;
11、分类模块,用于将待分类文本和候选文本列表分别输入至第一分类模块、第二分类模块以及第三分类模块中,分别得到第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签;第一分类模块、第二分类模块以及第三分类模块分别对应不同的无监督非参数化文本分类算法;
12、选举投票模块,用于基于第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签,计算待分类文本的第一数量个分类标签。
13、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例第一方面任一方法中所描述的部分或全部步骤。
14、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面任一方法中所描述的部分或全部步骤。
15、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请实施例第一方面任一方法中所描述的部分或全部步骤。
16、上述无监督非参数化文本分类方法、装置、计算机设备、存储介质和计算机程序产品,获取训练集和测试集;训练集中包括分别对应有训练标签的多个训练文本;在测试集包括的多个测试文本中确定待分类文本;基于待分类文本和目标es索引,在训练集中检索候选文本列表;目标es索引与训练集对应;将待分类文本和候选文本列表分别输入至第一分类模块、第二分类模块以及第三分类模块中,分别得到第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签;第一分类模块、第二分类模块以及第三分类模块分别对应不同的无监督非参数化文本分类算法;基于第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签,计算待分类文本的第一数量个分类标签。采用本申请提供的无监督非参数化文本分类方法,通过避免对训练集中的训练文本及标签进行监督学习训练,从而地,在进一步提高文本分类效率的同时,还能提高文本分类的效能(即时间性能),并且,通过目标es索引能够提高对于待分类文本的快速定位检索,同时,由于待分类文本的分类标签是基于通过不同的无监督非参数化文本分类算法得到的第一标签、第二标签以及第三标签共同进行确定的,从而地,在进一步地提高文本分类效率的同时还能够提高文本分类的准确度。
本文档来自技高网...【技术保护点】
1.一种无监督非参数化文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述待分类文本和目标ES索引,在所述训练集中检索候选文本列表,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述待分类文本对所述目标ES索引中的训练文本进行检索,以在所述训练集中检索所述候选文本列表,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于第一数量个所述第一标签、第一数量个所述第二标签以及第一数量个所述第三标签,计算所述待分类文本的第一数量个分类标签,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法包括:
6.根据权利要求1所述的方法,其特征在于,所述将所述待分类文本和所述候选文本列表分别输入至第一分类模块、第二分类模块以及第三分类模块中,分别得到第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签,包括:
7.根据权利要求1所述的方法,其特征在于,所述将所述待分类文本和所述候选文本列表分别输入至第一分类模块、第二分类模块以及第三分类模块中,分别得到
8.根据权利要求1所述的方法,其特征在于,所述将所述待分类文本和所述候选文本列表分别输入至第一分类模块、第二分类模块以及第三分类模块中,分别得到第一数量个第一标签、第一数量个第二标签以及第一数量个第三标签,包括:
9.一种无监督非参数化文本分类装置,其特征在于,所述装置包括:
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种无监督非参数化文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述待分类文本和目标es索引,在所述训练集中检索候选文本列表,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述待分类文本对所述目标es索引中的训练文本进行检索,以在所述训练集中检索所述候选文本列表,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于第一数量个所述第一标签、第一数量个所述第二标签以及第一数量个所述第三标签,计算所述待分类文本的第一数量个分类标签,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法包括:
6.根据权利要求1所述的方法,其特征在于,所述将所述待分类文本和所述候选文本列表分别输入至第一分类模块、第二分类模块以及第三分类模块中,分别得到...
【专利技术属性】
技术研发人员:丁勇,吕海峰,杨昌松,梁海,王硕,刘真,宋佳丽,丰梦琪,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。