一种文本处理方法及装置制造方法及图纸

技术编号:18083932 阅读:38 留言:0更新日期:2018-05-31 12:27
本发明专利技术实施例提供了一种文本处理方法及装置,其中方法包括:获取待处理文本数据;根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别,其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类,所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类;根据所获取的两个所述候选类别确定所述文本数据的类别。在本发明专利技术实施例中,从标题+全文以及指定句子两种角度对待分类文本进行分类,得到两个候选类别,在此基础上最终确定文本的类别,这样有效地提高了文本分类的效率,同时也提高了文本分类的准确性,降低了人的主观性对分类结果的影响。

【技术实现步骤摘要】
一种文本处理方法及装置
本专利技术涉及自然语言处理领域,尤其涉及一种文本处理方法及装置。
技术介绍
随着信息技术的发展,人们所面对的文本信息量也呈爆发式增长,有关文本信息的处理技术也在不断进化。以教育领域为例,当前自动阅卷技术开始崭露头角,越来越多的学校或教育机构开始采用自动阅卷技术对学生的试卷进行自动批阅。很多试卷中包含作文,不过作文作为主观性较强的试题,机器很难直接给出作文的得分。专利技术人在实现本专利技术的过程中发现,在批改作文时,是否跑题是评分的主要关注点之一,因此对于作文的自动阅卷,评分之前先判断出学生作文的类别很关键,而且不同类别的作文往往对应不同的评阅标准,因此可以说确定学生作文的类别是作文自动阅卷的基础。在现有技术中,当需要对文章等文本进行分类时,一般采用的是人工方法,即由相关人员查看文章的内容后,给出文章的类别(如说明文、议论文等),例如学生写的作文,一般是需要老师查看作文内容后,给出每篇作文的文章类别。然而当文本数量较多时,人工工作量很大,分类效率很低,并且不同人对文本的理解可能会有偏差,对文本类别的标注存在主观性。
技术实现思路
本专利技术提供一种文本处理方法及装置,以提高文本分类的效率。根据本专利技术实施例的第一方面,提供一种文本处理方法,所述方法包括:获取待处理文本数据;根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别,其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类,所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类;根据所获取的两个所述候选类别确定所述文本数据的类别。可选的,所述第一文本分类模型为预先通过训练得到的神经网络模型;所述根据第一文本分类模型获取所述文本数据的一个候选类别,包括:获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵;将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述第一文本分类模型的输入;根据所述第一文本分类模型所输出的所述文本数据属于每个预设类别的概率,确定所述文本数据的一个候选类别。可选的,所述获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵,包括:获取所述标题及每个句子所包含的每个词的词向量;将所述标题所包含的每个词的词向量为一行组成所述标题的语义矩阵;将所述每个句子所包含的每个词的词向量为一行组成每个句子的语义矩阵。可选的,所述第一文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层;所述句子编码层,用于对标题的语义矩阵及每个句子的语义矩阵进行句子级编码以得到句子级编码特征;所述篇章编码层,用于以所述句子编码层输出的句子级编码特征作为输入,从整篇文本角度对所述标题及每个句子的句子级编码特征重新进行篇章级编码以得到篇章级编码特征;所述注意力层,用于以所述篇章编码层输出的篇章级编码特征作为输入,根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重;所述加权求和层,用于以所述注意力层输出的每个句子的重要度权重及每个句子相应的篇章级编码特征作为输入,计算得到所述文本数据的语义矩阵,其中所述文本数据的语义矩阵为每个句子的重要度权重与相应的篇章级编码特征乘积之和;所述输出层,用于以所述加权求和层输出的所述文本数据的语义矩阵作为输入,输出为所述文本数据属于每个预设类别的概率。可选的,所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重,包括:根据每个句子的篇章级编码特征与注意力层的注意力向量,计算每个句子的注意力值;计算每个句子的篇章级编码特征与所述标题的篇章级编码特征相似度,以作为每个句子的主线权重;根据每个句子的注意力值和主线权重,计算得到每个句子的重要度权重。可选的,所述根据第二文本分类模型获取所述文本数据的一个候选类别,包括:根据预设规则从所述文本数据所包含的句子中获取指定句子;提取每个所述指定句子的文本分类特征,其中所述文本分类特征至少包括以下一种特征:用于描述当前句子自身特性的句子级文本分类特征,用于从整篇文本角度描述当前句子的特性的篇章级文本分类特征,用于从当前句子的上下文角度描述当前句子的特性的句子上下文文本分类特征;将所有指定句子的文本分类特征作为所述第二文本分类模型的输入,根据所述第二文本分类模型所输出的所述文本数据属于每个预设类别的概率,确定所述文本数据的一个候选类别。可选的,所述根据预设规则从所述文本数据所包含的句子中获取指定句子,包括:获取每个句子的重要度权重;对所有句子的重要度权重进行归一化和标准化;根据每个句子归一化和标准化处理后的重要度权重与预设阈值的关系,从所有句子中筛选出重点句子以作为所述指定句子。可选的,所述句子级文本分类特征包括以下特征中的至少一种:句子长度,句子结尾标点,句子中情感词出现次数,句子中特征词出现次数;所述篇章级文本分类特征包括以下特征中的至少一种:句子在文本中的段标号,句子是否出现在文本首段,句子是否出现在文本尾段,句子在其所在段中的句标号,句子是否是其所在段的首句,句子是否是其所在段的尾句,句子所在段的句子总数,句子所在段的平均句子长度;所述句子上下文文本分类特征包括以下特征中的至少一种:当前句之前一句或多句的句子级文本分类特征及篇章级文本分类特征,当前句之后的一句或多句的句子级文本分类特征及篇章级文本分类特征。根据本专利技术实施例的第二方面,提供一种文本处理装置,所述装置包括:文本获取单元,用于获取待处理文本数据;第一文本分类单元,用于根据第一文本分类模型获取所述文本数据的一个候选类别,其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类;第二文本分类单元,用于根据第二文本分类模型获取所述文本数据的一个候选类别,其中所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类;分类确定单元,用于根据所获取的两个所述候选类别确定所述文本数据的类别。可选的,所述第一文本分类模型为预先通过训练得到的神经网络模型;所述第一文本分类单元包括:语义矩阵获取子单元,用于获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵;输入子单元,用于将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述第一文本分类模型的输入;输出子单元,用于根据所述第一文本分类模型所输出的所述文本数据属于每个预设类别的概率,确定所述文本数据的一个候选类别。可选的,所述语义矩阵获取子单元用于:获取所述标题及每个句子所包含的每个词的词向量;将所述标题所包含的每个词的词向量为一行组成所述标题的语义矩阵;将所述每个句子所包含的每个词的词向量为一行组成每个句子的语义矩阵。可选的,所述第一文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层;所述句子编码层,用于对标题的语义矩阵及每个句子的语义矩阵进行句子级编码以得到句子级编码特征;所述篇章编码层,用于以所述句子编码层输出的句子级编码特征作为输入,从整篇文本角度对所述标题及每个句子的句子级编码特征重新进行篇章级编码以得到篇章级编码特征;所述注意力层,用于以所述篇章编码层输出的篇章级编码特征作为输入,根据所述标题及每个句子的篇章级编码特征计本文档来自技高网...
一种文本处理方法及装置

【技术保护点】
一种文本处理方法,其特征在于,所述方法包括:获取待处理文本数据;根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别,其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类,所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类;根据所获取的两个所述候选类别确定所述文本数据的类别。

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取待处理文本数据;根据第一文本分类模型和第二文本分类模型分别获取所述文本数据的一个候选类别,其中所述第一文本分类模型用于根据所述文本数据的标题及所述文本数据所包含的句子对所述文本数据分类,所述第二文本分类模型用于根据所述文本数据所包含的句子中的指定句子对所述文本数据分类;根据所获取的两个所述候选类别确定所述文本数据的类别。2.根据权利要求1所述的方法,其特征在于,所述第一文本分类模型为预先通过训练得到的神经网络模型;所述根据第一文本分类模型获取所述文本数据的一个候选类别,包括:获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵;将所述标题的语义矩阵和每个句子的语义矩阵一并作为所述第一文本分类模型的输入;根据所述第一文本分类模型所输出的所述文本数据属于每个预设类别的概率,确定所述文本数据的一个候选类别。3.根据权利要求2所述的方法,其特征在于,所述获取所述文本数据标题的语义矩阵和所述文本数据中每个句子的语义矩阵,包括:获取所述标题及每个句子所包含的每个词的词向量;将所述标题所包含的每个词的词向量为一行组成所述标题的语义矩阵;将所述每个句子所包含的每个词的词向量为一行组成每个句子的语义矩阵。4.根据权利要求2所述的方法,其特征在于,所述第一文本分类模型包括句子编码层、篇章编码层、注意力层、加权求和层、输出层;所述句子编码层,用于对标题的语义矩阵及每个句子的语义矩阵进行句子级编码以得到句子级编码特征;所述篇章编码层,用于以所述句子编码层输出的句子级编码特征作为输入,从整篇文本角度对所述标题及每个句子的句子级编码特征重新进行篇章级编码以得到篇章级编码特征;所述注意力层,用于以所述篇章编码层输出的篇章级编码特征作为输入,根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重;所述加权求和层,用于以所述注意力层输出的每个句子的重要度权重及每个句子相应的篇章级编码特征作为输入,计算得到所述文本数据的语义矩阵,其中所述文本数据的语义矩阵为每个句子的重要度权重与相应的篇章级编码特征乘积之和;所述输出层,用于以所述加权求和层输出的所述文本数据的语义矩阵作为输入,输出为所述文本数据属于每个预设类别的概率。5.根据权利要求4所述的方法,其特征在于,所述注意力层根据所述标题及每个句子的篇章级编码特征计算得到每个句子的重要度权重,包括:根据每个句子的篇章级编码特征与注意力层的注意力向量,计算每个句子的注意力值;计算每个句子的篇章级编码特征与所述标题的篇章级编码特征相似度,以作为每个句子的主线权重;根据每个句子的注意力值和主线权重,计算得到每个句子的重要度权重。6.根据权利要求1所述的方法,其特征在于,所述根据第二文本分类模型获取所述文本数据的一个候选类别,包括:根据预设规则从所述文本数据所包含的句子中获取指定句子;提取每个所述指定句子的文本分类特征,其中所述文本分类特征至少包括以下一种特征:用于描述当前句子自身特性的句子级文本分类特征,用于从整篇文本角度描述当前句子的特性的篇章级文本分类特征,用于从当前句子的上下文角度描述当前句子的特性的句子上下文文本分类特征;将所有指定句子的文本分类特征作为所述第二文本分类模型的输入,根据所述第二文本分类模型所输出的所述文本数据属于每个预设类别的概率,确定所述文本数据的一个候选类别。7.根据权利要求6所述的方法,其特征在于,所述根据预设规则从所述文本数据所包含的句子中获取指定句子,包括:获取每个句子的重要度权重;对所有句子的重要度权重进行归一化和标准化;根据每个句子归一化和标准化处理后的重要度权重与预设阈值的关系,从所有句子中筛选出重点句子以作为所述指定句子。8.根据权利要求6所述的方法,其特征在于,所述句子级文本分类特征包括以下特征中的至少一种:句子长度,句子结尾标点,句子中情感词出现次数,句子中特征词出现次数;所述篇章级文本分类特征包括以下特征中的至少一种:句子在文本中的段标号,句子是否出现在文本首段,句子是否出现在文本尾段,句子在其所在段中的句标号,句子是否是其所在段的首句,句子是否是其所在段的尾句,句子所在段的句子总数,句子所在段的平均句子长度;所述句子上下文文本分类特征包括以下特征中的至少一种:当前句之前一句或多句的句子级文本分类特征及篇章级文本分类特征,当前句之后的一句或多句的句子级文本分类特征及篇章级文本分类特征。9.一种文本处理装置,其特征在于,所述装置包括:文本...

【专利技术属性】
技术研发人员:王栋宋巍付瑞吉王士进胡国平秦兵刘挺
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1