长文本识别方法、装置、服务器以及计算机可读存储介质制造方法及图纸

技术编号:34990195 阅读:23 留言:0更新日期:2022-09-21 14:36
本申请适用于文本处理技术领域,提供了一种长文本识别方法、装置、服务器以及计算机可读存储介质,该方法包括:获取待识别文本;确定出待识别文本中的长文本;根据投票机制识别长文本的目标类型。可见,本申请解决了现有技术中文本信息可能会丢失导致对文本类别的错误判断的技术问题,达到提高对长文本识别准确率的效果。的效果。的效果。

【技术实现步骤摘要】
长文本识别方法、装置、服务器以及计算机可读存储介质


[0001]本申请属于文本处理
,尤其涉及一种长文本识别方法、装置、服务器以及计算机可读存储介质。

技术介绍

[0002]文本分类是自然语言处理(NLP)的重要任务之一,该技术可以对文本进行重要的标签提取,实现关于文本的舆论监控,把握舆论热点和倾向。现有实现文本分类的方法众多,其中Bidirectional Encoder Representation from Transformers(BERT)预训练表征模型在多个NLP任务中都表现出较好的结果。但是该预训练模型考虑到计算与运行效率对其文本长度进行了限制,最大长度限制为512,其中还需要包括标志位[CLS]和[SEP],其文本长度最大其实为510。当文本长度超过510时需要对其进行文本截取。因此,文本信息可能会丢失导致对文本类别的错误判断。

技术实现思路

[0003]在本申请实施例提供了一种长文本的分类识别方法、装置、服务器及存储介质,可以解决现有技术中长文本的分类识别过程会对丢失文本信息,导致对文本类别的错误判断的技术问题。
[0004]第一方面,本申请实施例提供了一种长文本识别方法,包括:获取待识别文本;确定出待识别文本中的长文本;根据投票机制识别长文本的目标类型。
[0005]在第一方面的一种可能的实现方式中,根据投票机制识别长文本的类型,包括:拆分所述长文本,得到短句;将所述短句输入至预先训练的分类模型,得到预测类型;根据预设的投票机制,基于所述短句对应的预测类型,判定出长文本的目标类型。
[0006]在第一方面的一种可能的实现方式中,将所述短句输入至预先训练的分类模型,得到预测类型之前,还包括:训练所述分类模型。
[0007]在第一方面的一种可能的实现方式中,训练所述分类模型,包括:获取样本数据;根据所述样本数据构建分类模型;根据所述样本数据训练所述分类模型。
[0008]第二方面,本申请实施例提供了一种长文本识别装置,包括:获取模块,用于获取待识别文本;确定模块,用于确定出待识别文本中的长文本;识别模块,用于根据投票机制识别长文本的目标类型。
[0009]在第二方面的一种可能实现的方式中,所述识别模块包括:拆分单元,用于拆分所述长文本,得到短句;预测单元,用于将所述短句输入至预先训练的分类模型,得到预测类型;判定单元,用于根据预设的投票机制,基于所述短句对应的预测类型,判定出长文本的目标类型。
[0010]在第二方面的一种可能实现的方式中,所述装置还包括:训练模块,用于所述分类模型。
[0011]在第二方面的一种可能实现的方式中,所述训练模块包括:获取单元,用于获取样本数据;构建单元,用于根据所述样本数据构建分类模型;训练单元,根据所述样本数据训练所述分类模型。
[0012]第三方面,本申请实施例提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。
[0013]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法。
[0014]本申请实施例与现有技术相比存在的有益效果是:本申请实施例中,通过获取待识别文本,确定出待识别文本中的长文本,根据投票机制识别长文本的目标类型,解决了现有技术中文本信息可能会丢失导致对文本类别的错误判断的技术问题,达到提高对长文本识别准确率的效果。
附图说明
[0015]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本申请实施例提供的长文本识别方法的流程示意图;图2是本申请实施例提供的长文本识别装置的结构框图;图3是本申请实施例提供的服务器的结构示意图;图4是本申请实施提供的文本分类的模型输入示意图。
具体实施方式
[0017]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0018]应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、
步骤、操作、元素、组件和/或其集合的存在或添加。
[0019]还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0020]如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0021]另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0022]在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0023]下面将通过具体实施例对本申请实施例提供的技术方案进行介绍。
[0024]参见图1,为本申请实施例提供的长文本识别方法的流程示意图,作为示例而非限定,该方法可以应用于服务器,该方法可以包括以下步骤:步骤S101,获取待识别文本。
[0025]可以理解的是,待识别文本的来源可以是开源数据集。
[0026]步骤S102,确定出待识别文本中的长文本。
[0027]可以理解的是,本申请实施例中,将文本长度大于510的确定为长文本。当文本长度小于510,采用分类模型对文本直接进行类型预测获得文本相应的类型。
[0028]步骤S103,根据投票机制识别长文本的目标类型。
[0029]具体应用中,根据投票机制识别长文本的目标类型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本识别方法,其特征在于,包括:获取待识别文本;确定出待识别文本中的长文本;根据投票机制识别长文本的目标类型。2.如权利要求1所述的长文本识别方法,其特征在于,根据投票机制识别长文本的类型,包括:拆分所述长文本,得到短句;将所述短句输入至预先训练的分类模型,得到预测类型;根据预设的投票机制,基于所述短句对应的预测类型,判定出长文本的目标类型。3.如权利要求2所述的长文本识别方法,其特征在于,将所述短句输入至预先训练的分类模型,得到预测类型之前,还包括:训练所述分类模型。4.如权利要求3所述的长文本识别方法,训练所述分类模型,包括:获取样本数据;根据所述样本数据构建分类模型;根据所述样本数据训练所述分类模型。5.一种长文本识别装置,其特征在于,包括:获取模块,用于获取待识别文本;确定模块,用于确定出待识别文本中的长文本;识别模块,用于根据投票机制识别长文本的目标类型。6.如权利要求5所述的长文本识别装置,其特...

【专利技术属性】
技术研发人员:聂镭齐凯杰王竹欣
申请(专利权)人:龙马智芯珠海横琴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1