本申请公开了一种文本摘要抽取方法、装置、计算机设备及存储介质,应用于文本处理技术领域,用于提高文本摘要的抽取效率。本申请提供的方法包括:获取待抽取文本,根据预设长度的截取窗口对所述待抽取文本进行截取,得到输入序列;按照文本处理方式,对所述输入序列添加噪声信息,得到噪声输入序列通过预训练模型生成所述噪声输入序列的向量表示,得到所述噪声输入序列的向量表示矩阵;将所述向量表示矩阵输入到预设的文本摘要模型,得到所述待抽取文本的文本摘要。取文本的文本摘要。取文本的文本摘要。
【技术实现步骤摘要】
文本摘要抽取方法、装置、计算机设备及存储介质
[0001]本申请涉及文本处理
,尤其涉及一种文本摘要抽取方法、装置、计算机设备及存储介质。
技术介绍
[0002]随着文本数据的爆炸性发展,人们已经无法及时浏览和理解所有感兴趣的文本,有可能造成遗失重要的文本数据,因此,文本摘要作为总结文本重要数据的信息,而如何根据文本数据生成文本摘要成为研究热门。
[0003]现有的文本摘要抽取方法,主要是利用机器学习中的编码模型,对文本数据进行编码,然后使用带有注意力机制的解码器将编码信息进行解码,以生成文本摘要。这种方法采用全局注意力计算,整个过程中增加了计算复杂度,造成文本摘要抽取效率较低。
技术实现思路
[0004]本申请提供一种文本摘要抽取方法、装置、计算机设备及存储介质,以提高文本摘要的抽取效率。
[0005]一种文本摘要抽取方法,包括:
[0006]获取待抽取文本,根据预设长度的截取窗口对所述待抽取文本进行截取,得到输入序列;
[0007]按照文本处理方式,对所述输入序列添加噪声信息,得到噪声输入序列;
[0008]通过预训练模型生成所述噪声输入序列的向量表示,得到所述噪声输入序列的向量表示矩阵;
[0009]将所述向量表示矩阵输入到预设的文本摘要模型,得到所述待抽取文本的文本摘要。
[0010]一种文本摘要抽取装置,包括:
[0011]输入序列截取模块,用于获取待抽取文本,根据预设长度的截取窗口对所述待抽取文本进行截取,得到输入序列;
[0012]噪声添加模块,用于按照文本处理方式,对所述输入序列添加噪声信息,得到噪声输入序列;
[0013]向量表示模块,用于通过预训练模型生成所述噪声输入序列的向量表示,得到所述噪声输入序列的向量表示矩阵;
[0014]文本摘要抽取模块,用于将所述向量表示矩阵输入到预设的文本摘要模型,得到所述待抽取文本的文本摘要。
[0015]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本摘要抽取方法的步骤。
[0016]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计
算机程序被处理器执行时实现上述文本摘要抽取方法的步骤。
[0017]本申请提供的文本摘要抽取方法、装置、计算机设备及存储介质,通过预设长度的截取窗口对待抽取文本进行截取,得到预设长度的输入序列,按照文本处理方式,对输入序列进行噪声添加,以对输入序列添加噪声信息,得到噪声输入序列,通过预训练模型生成噪声输入序列的向量表示,得到向量表示矩阵,将向量表示矩阵输入到预设的文本摘要模型,得到待抽取文本的文本摘要,通过对输入序列添加噪声信息,使得预设的文本摘要模型能够学习到待抽取文本的语义信息,从而能够提高得到待抽取文本的文本摘要的效率。
附图说明
[0018]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本申请一实施例中文本摘要抽取方法的一应用环境示意图;
[0020]图2是本申请一实施例中文本摘要抽取方法的一流程图;
[0021]图3是本申请一实施例中文本摘要抽取装置的结构示意图;
[0022]图4是本申请一实施例中计算机设备的一示意图。
具体实施方式
[0023]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]本申请实施例提供的文本摘要抽取方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。其中,计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0025]系统框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0026]用户可以使用终端设备通过网络与服务器交互,以接收或者发送消息等。
[0027]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Eperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Eperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0028]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
[0029]需要说明的是,本申请实施例所提供的文本摘要抽取方法由服务器执行,相应地,
文本摘要抽取装置设置于服务器中。
[0030]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备具体可以对应的是实际生产中的应用系统。
[0031]在一实施例中,如图2所示,提供一种文本摘要抽取方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
[0032]S10,获取待抽取文本,根据预设长度的截取窗口对待抽取文本进行截取,得到输入序列。
[0033]具体的,待抽取文本指的是需要进行摘要抽取的文本,具体可以是文字形式的会议文本。将待抽取文本作为由句子组成的文本序列,通过预设长度的截取窗口从文本序列中选取出输入序列。输入序列由i个句子组成。
[0034]在本实施例中,通过句子数量作为截取窗口的长度。即预设长度为i,截取出长度为i的输入序列,i的取值是大于1的整数。其中,截取窗口的预设长度可根据实际情况设定,在此不做具体限定。
[0035]S20,按照文本处理方式,对输入序列添加噪声信息,得到噪声输入序列。
[0036]具体的,通过对输入序列中的句子进行文本处理,例如添加特定标识等,对输入序列中的文本添加噪声信息,得到噪声输入序列。
[0037]噪声信息是指对输入序列中的原始文本造成干扰的信息,生成方式是对输入序列中的文本进行文本处理,得到带有噪声信息的噪声输入序列。
[0038]S30,通过预训练模型生成噪声输入序列的向量表示,得到噪声输入序列的向量表本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本摘要抽取方法,其特征在于,包括:获取待抽取文本,根据预设长度的截取窗口对所述待抽取文本进行截取,得到输入序列;按照文本处理方式,对所述输入序列添加噪声信息,得到噪声输入序列;通过预训练模型生成所述噪声输入序列的向量表示,得到所述噪声输入序列的向量表示矩阵;将所述向量表示矩阵输入到预设的文本摘要模型,得到所述待抽取文本的文本摘要。2.根据权利要求1所述的文本摘要抽取方法,其特征在于,所述获取待抽取文本,根据预设长度的截取窗口对所述待抽取文本进行截取,得到输入序列包括:对所述待抽取文本进行分句,构成文本句子序列;根据预设长度的截取窗口对所述文本句子序列进行截取,得到与预设长度的文本序列,将所述预设长度的文本序列作为输入序列。3.根据权利要求1所述的文本摘要抽取方法,其特征在于,所述按照文本处理方式,对所述输入序列添加噪声信息,得到噪声输入序列包括:所述文本处理方式包括替换所述输入序列中的发言人标记、对所述输入序列中的对话进行对话分割、对所述输入序列中的对话进行对话合并、对所述输入序列进行文本遮盖以及按照随机顺序对所述输入序列进行排序;通过上述的文本处理方式对所述输入序列进行文本处理,以添加噪声信息,得到包含所述噪声信息的噪声输入序列。4.根据权利要求3所述的文本摘要抽取方法,其特征在于,所述方法还包括:随机选取两种以上所述文本处理方式进行组合,得到组合处理方式;通过所述组合处理方式,对所述输入序列添加噪声信息,得到所述噪声输入序列。5.根据权利要求1所述的文本摘要抽取方法,其特征在于,在获取待抽取文本,根据预设长度的截取窗口对所述待抽取文本进行截取,得到输入序列之前,还包括以下步骤:通过Transformer与注意力机制构建训练模型;通过在线数据库获取文本训练数据,按照发言人的发言轮次,对所述文本训练数据进行对话拼接,构成对话序列;基于所述对话序列,选取预设长度的对话,作为原始序列;对所述原始序列添加噪声信息,...
【专利技术属性】
技术研发人员:张剑,陈雅珍,
申请(专利权)人:东莞点慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。