文档摘要处理方法、装置、设备及介质制造方法及图纸

技术编号：33377730 阅读：11 留言：0更新日期：2022-05-11 22:45

本公开实施例涉及一种文档摘要处理方法、装置、设备及介质，其中该方法包括：对目标文档切分生成多个第一文本片段；通过摘要处理模型中的第一模型对每个第一文本片段编码处理，获取语义向量；通过摘要处理模型中的第二模型对每个第一文本片段的语义向量解码，生成对应的第二文本片段；对每个第一文本片段的语义向量分类处理，生成每个第一文本片段的文本类别；根据每个第一文本片段的文本类别，以及每个第一文本片段对应的第二文本片段，确定每个第一文本片段对应的摘要文本片段；根据每个第一文本片段对应的摘要文本片段生成目标文档的摘要内容。本公开实施例中，确保了生成的摘要内容更贴合目标文档，并且语言通顺、连贯性较好。连贯性较好。连贯性较好。

全部详细技术资料下载

【技术实现步骤摘要】
文档摘要处理方法、装置、设备及介质

[0001]本公开涉及深度学习
，尤其涉及一种文档摘要处理方法、装置、设备及介质。

技术介绍

[0002]随着深度学习技术的发展，可以通过深度学习技术建立摘要模型，并且使用摘要模型对文本进行摘要提取。
[0003]目前，可以通过抽取式摘要模型获取摘要，其中抽取式摘要模型能够对文本中的句子进行分类，进而从文本中抽取出适合作为摘要的句子，并将抽取出来的句子组合成摘要。
[0004]虽然抽取式摘要模型因直接从文本中抽取句子能够保证句子的语法、句法错误率低，但也容易直接抽取出错误句子，导致组合成的摘要内容不连贯，且该种单一处理模型的方式对文本进行摘要提取，往往导致提取的摘要不能满足多个维度指标的要求。

技术实现思路

[0005]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文档摘要处理方法、装置、设备及介质。
[0006]第一方面，本公开实施例提供了一种文档摘要处理方法，所述方法包括：
[0007]对目标文档进行切分生成多个第一文本片段；
[0008]通过预先训练的摘要处理模型中的第一模型对每个所述第一文本片段进行编码处理，获取每个所述第一文本片段的语义向量；
[0009]通过所述摘要处理模型中的第二模型对每个所述第一文本片段的语义向量进行解码，生成每个所述第一文本片段对应的第二文本片段；
[0010]对每个所述第一文本片段的语义向量进行分类处理，生成每个所述第一文本片段的文本类别；
>[0011]根据每个所述第一文本片段的文本类别，以及每个所述第一文本片段对应的第二文本片段，确定每个所述第一文本片段对应的摘要文本片段；
[0012]根据每个所述第一文本片段对应的摘要文本片段生成所述目标文档的摘要内容。
[0013]一种可选的实施方式中，所述对目标文档进行切分生成多个第一文本片段，包括：
[0014]确定所述第一模型预设的文本长度阈值；
[0015]根据预设的标点符号和用于上下文关联的滑动窗口对所述目标文档进行切分，生成多个第一文本片段，其中，切分位置前后相邻的第一文本片段中的部分内容重叠，每个所述第一文本片段的长度小于或者等于所述文本长度阈值。
[0016]一种可选的实施方式中，所述第一模型为预先训练的抽取式语言模型，所述通过预先训练的摘要处理模型中的第一模型对每个所述第一文本片段进行编码处理，获取每个所述第一文本片段的语义向量，包括：
[0017]根据预设词表对每个所述第一文本片段进行映射，获取所述词表中与所述第一文本片段对应的编码数据；
[0018]将所述第一文本片段对应的编码数据输入预先训练的抽取式语言模型，获取每个所述第一文本片段的语义向量。
[0019]一种可选的实施方式中，所述第二模型为预先训练的生成式语言模型，所述通过所述摘要处理模型中的第二模型对每个所述第一文本片段的语义向量进行解码，生成每个所述第一文本片段对应的第二文本片段，包括：
[0020]将所述第一文本片段的语义向量输入预先训练的生成式语言模型，根据所述第一文本片段的语义向量逐字依次生成字符，获取与每个所述第一文本片段对应的第二文本片段。
[0021]一种可选的实施方式中，所述对每个所述第一文本片段的语义向量进行分类处理，生成每个所述第一文本片段的文本类别，包括：
[0022]将每个所述第一文本片段的语义向量输入所述摘要处理模型中的全连接层分类模型进行二分类，获取每个所述第一文本片段的文本类别，其中，所述文本类别为表示摘要类型的第一类别，或者，所述文本类别为表示非摘要类型的第二类别。
[0023]一种可选的实施方式中，所述根据每个所述第一文本片段的文本类别，以及每个所述第一文本片段对应的第二文本片段，确定每个所述第一文本片段对应的摘要文本片段，包括：
[0024]当所述第一文本片段的文本类别为摘要类别，通过所述摘要处理模型的处理计算所述第一文本片段的第一置信度，以及与所述第一文本片段对应的第二文本片段的第二置信度；
[0025]在所述第一置信度和所述第二置信度均大于预设阈值的情况下，若所述第一置信度大于所述第二置信度，则将所述第一文本片段作为其自身对应的摘要文本片段，或者，
[0026]若所述第二置信度大于所述第一置信度，则将所述第二文本片段作为所述第一文本片段对应的摘要文本片段，或者，
[0027]若所述第二置信度等于所述第一置信度，则将所述第一文本片段为其自身对应的摘要文本片段，或，将所述第二文本片段为所述第一文本片段对应的摘要文本片段。
[0028]一种可选的实施方式中，还包括：
[0029]在所述第一置信度大于预设阈值，以及所述第二置信度不大于预设阈值的情况下，则将所述第一文本片段作为其自身对应的摘要文本片段；或者，
[0030]在所述第二置信度大于预设阈值，以及所述第一置信度不大于预设阈值的情况下，则将所述第二文本片段作为所述第一文本片段对应的摘要文本片段；或者，
[0031]在所述第一置信度和所述第二置信度均不大于预设阈值的情况下，确定所述第一文本片段不存在对应的摘要文本片段。
[0032]一种可选的实施方式中，还包括：
[0033]当所述第一文本片段的文本类别不为摘要类别，通过所述摘要处理模型的处理计算与所述第一文本片段对应的第二文本片段的第二置信度；
[0034]在所述第二置信度大于预设阈值的情况下，则将所述第二文本片段作为所述第一文本片段对应的摘要文本片段；或者，
[0035]在所述第二置信度不大于预设阈值的情况下，确定所述第一文本片段不存在对应的摘要文本片段。
[0036]一种可选的实施方式中，所述根据每个所述第一文本片段对应的摘要文本片段生成所述目标文档的摘要内容，包括：
[0037]将至少一个所述第一文本片段本身作为对应的抽取式文本片段，以及将至少一个所述第一文本片段对应的所述第二文本片段作为对应的生成式文本片段；
[0038]将至少一个所述抽取式文本片段与至少一个所述生成式文本片段进行拼接，生成所述目标文档的摘要内容。
[0039]第二方面，本公开实施例还提供了一种文档摘要处理装置，所述装置包括：
[0040]切分模块，用于对目标文档进行切分生成多个第一文本片段；
[0041]获取模块，用于通过预先训练的摘要处理模型中的第一模型对每个所述第一文本片段进行编码处理，获取每个所述第一文本片段的语义向量；
[0042]第一生成模块，用于通过所述摘要处理模型中的第二模型对每个所述第一文本片段的语义向量进行解码，生成每个所述第一文本片段对应的第二文本片段；
[0043]第二生成模块，用于对每个所述第一文本片段的语义向量进行分类处理，生成每个所述第一文本片段的文本类别；
[0044]确定模块，用于根据每个所述第一文本片段的文本类别，以及每个所述第一文本片段对应的第二文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档摘要处理方法，其特征在于，包括以下步骤：对目标文档进行切分生成多个第一文本片段；通过预先训练的摘要处理模型中的第一模型对每个所述第一文本片段进行编码处理，获取每个所述第一文本片段的语义向量；通过所述摘要处理模型中的第二模型对每个所述第一文本片段的语义向量进行解码，生成每个所述第一文本片段对应的第二文本片段；对每个所述第一文本片段的语义向量进行分类处理，生成每个所述第一文本片段的文本类别；根据每个所述第一文本片段的文本类别，以及每个所述第一文本片段对应的第二文本片段，确定每个所述第一文本片段对应的摘要文本片段；根据每个所述第一文本片段对应的摘要文本片段生成所述目标文档的摘要内容。2.根据权利要求1所述的方法，其特征在于，所述对目标文档进行切分生成多个第一文本片段，包括：确定所述第一模型预设的文本长度阈值；根据预设的标点符号和用于上下文关联的滑动窗口对所述目标文档进行切分，生成多个第一文本片段，其中，切分位置前后相邻的第一文本片段中的部分内容重叠，每个所述第一文本片段的长度小于或者等于所述文本长度阈值。3.根据权利要求1所述的方法，其特征在于，所述第一模型为预先训练的抽取式语言模型，所述通过预先训练的摘要处理模型中的第一模型对每个所述第一文本片段进行编码处理，获取每个所述第一文本片段的语义向量，包括：根据预设词表对每个所述第一文本片段进行映射，获取所述词表中与所述第一文本片段对应的编码数据；将所述第一文本片段对应的编码数据输入预先训练的抽取式语言模型，获取每个所述第一文本片段的语义向量。4.根据权利要求1所述的方法，其特征在于，所述第二模型为预先训练的生成式语言模型，所述通过所述摘要处理模型中的第二模型对每个所述第一文本片段的语义向量进行解码，生成每个所述第一文本片段对应的第二文本片段，包括：将所述第一文本片段的语义向量输入预先训练的生成式语言模型，根据所述第一文本片段的语义向量逐字依次生成字符，获取与每个所述第一文本片段对应的第二文本片段。5.根据权利要求1所述的方法，其特征在于，所述对每个所述第一文本片段的语义向量进行分类处理，生成每个所述第一文本片段的文本类别，包括：将每个所述第一文本片段的语义向量输入所述摘要处理模型中的全连接层分类模型进行二分类，获取每个所述第一文本片段的文本类别，其中，所述文本类别为表示摘要类型的第一类别，或者，所述文本类别为表示非摘要类型的第二类别。6.根据权利要求1所述的方法，其特征在于，所述根据每个所述第一文本片段的文本类别，以及每个所述第一文本片段对应的第二文本片段，确定每个所述第一文本片段对应的摘要文本片段，包括：当所述第一文本片段的文本类别为摘要类别，通过所述摘要处理模型的处理计算所述第一文本片段的第一置信度，以及与所述第一文本片段对应的第二文本片段的第二置信
度；在所述第一置信度和所述第二置信度均大于预设阈值的情况下，若所述第一置信度大于所述第二置信度，则将所述第一文本片段作为其自身对应的摘要文本片段，或者，若所述第二置信度大于所述第一置信度，则将所述第二文本片段作为所述第一文本片段对应的摘要文本...

【专利技术属性】
技术研发人员：潘璋，李长亮，姬子明，李小龙，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人