一种自动生成文本摘要的方法和系统技术方案

技术编号:26171164 阅读:31 留言:0更新日期:2020-10-31 13:42
本申请提供了一种自动生成文本摘要的方法和系统。所述方法包括:获取文本数据;利用抽取式的方式,从所述文本数据中抽取至少一个关键句;利用生成式的方式,对所述至少一个关键句进行处理,得到文本摘要。本申请可以使用快速思考模型或BERT模型对长文本进行句向量的提炼,并使用TextRank算法抽取其中的关键句,可以将文本数据缩短并丢弃文本数据中无用的信息,降低了编码‑解码模型和注意力模型进行文本摘要的难度,提高了生成文本摘要时的性能和效果。另外,通过引入预设词表,可以在快速思考模型、编码‑解码模型和注意力模型处理文本数据时,解决了未登录词导致的句子语义不清楚的问题。

【技术实现步骤摘要】
一种自动生成文本摘要的方法和系统
本申请涉及数据处理领域,特别涉及一种自动生成文本摘要的方法和系统。
技术介绍
在线服务场景下,通常需要对一段文本数据进行概括,例如,生成新闻标题、摘要,或者提取对话文本中的重要信息。若进行人工概括,将耗时耗力。而对于长文本来说,采用传统的seq2seq方法,又会造成难以处理或者耗时严重的情况。因此,需要提供一种自动生成文本摘要的方法和系统。
技术实现思路
本申请实施例之一提供一种自动生成文本摘要的方法。所述方法包括:获取文本数据;利用抽取式的方式,从所述文本数据中抽取至少一个关键句;利用生成式的方式,对所述至少一个关键句进行处理,得到文本摘要。本申请实施例之一提供一种自动生成文本摘要的系统。所述系统包括:第一获取模块,用于获取文本数据;抽取模块,用于利用抽取式的方式,从所述文本数据中抽取至少一个关键句;生成模块,用于利用生成式的方式,对所述至少一个关键句进行处理,得到文本摘要。本申请实施例之一提供一种自动生成文本摘要的装置。所述装置包括处理器以及存储器;所述存储器用于存储指令,其特征在于,当所述指令被所述处理器执行时,所述装置实现如本申请任一实施例所述的自动生成文本摘要的方法对应的操作。本申请实施例之一提供一种自动生成工单描述的方法。所述方法包括:获取用户与客服的对话数据;基于所述对话数据,通过如本申请任一实施例所述的自动生成文本摘要的方法生成第一工单描述。在一些实施例中,所述方法还可以包括基于所述对话数据,通过分类器的方式得到第二工单描述,所述第二工单描述包括所述用户对所述解决方案的认可情况;以及汇总所述第一工单描述和所述第二工单描述,得到完整工单描述。本申请实施例之一提供一种自动生成工单描述的系统,其特征在于,所述系统包括:第二获取模块,用于获取用户与客服的对话数据;第一工单描述生成模块,用于基于对话数据,通过本申请任一实施例所述的文本摘要的方法生成第一工单描述。在一些实施例中,第一工单描述包括对工单所涉事件的描述和对工单所涉事件的解决方案,所述系统还可以包括:第二工单描述生成模块,用于基于所述对话数据,通过分类器的方式得到第二工单描述,所述第二工单描述包括所述用户对所述解决方案的认可情况;以及汇总模块,用于汇总所述第一工单描述和所述第二工单描述,得到完整工单描述。本申请实施例之一提供一种自动生成工单描述的装置,所述装置包括处理器以及存储器;所述存储器用于存储指令,当所述指令被所述处理器执行时,所述装置实现如本申请任一实施例所述的自动生成工单描述的方法对应的操作。本申请实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如本申请任一实施例所述的自动生成工单描述的方法对应的操作。附图说明本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1为根据本说明书一些实施例所示的自动生成文本摘要系统的应用场景图;图2是根据本申请一些实施例所示的自动生成文本摘要系统的模块图;图3是根据本申请一些实施例所示的自动生成工单描述系统的模块图;图4是根据本申请一些实施例所示的自动生成文本摘要的方法的示例性流程图;图5是根据本申请一些实施例所示的编码-解码和注意力模型的结构图;以及图6是根据本申请一些实施例所示的自动生成工单描述的方法的示例性流程图。具体实施方式为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。图1为根据本说明书一些实施例所示的自动生成文本摘要系统的应用场景图。该自动生成文本摘要的方法可以应用于生成新闻摘要、事件描述、新闻标题、客服对话工单描述等场景。下面以生成客服对话工单描述为例进行阐述。该自动生成文本摘要系统100可以包括服务器110、网络120、用户终端130、客服终端140以及存储设备150。服务器110可以处理来自系统100的至少一个其他组件的数据和/或信息。例如,服务器110可以从用户终端130、客服终端140获取对话数据,并基于所述对话数据自动生成工单描述。在一些实施例中,服务器110可以是单个处理设备,也可以是处理设备组。处理设备组可以是经由接入点连接到网络120的集中式处理设备组,或者经由至少一个接入点分别连接到网络120的分布式处理设备组。在一些实施例中,服务器110可以本地连接到网络120或者与网络120远程连接。例如,服务器110可以经由网络120访问存储在用户终端130、客服终端140和/或存储设备150中的信息和/或数据。又例如,存储设备150可以用作服务器110的后端数据存储器。网络120可以促进信息和/或数据的交换。在一些实施例中,场景100下的至少一个组件(例如,服务器110、用户终端130、客服终端140、存储设备150)可以经由网络120将信息和/或数据发送到其他组件。例如,用户终端130可以通过网络120将用户的对话数据发送给服务器110,客服终端140可以通过网络120将客服的对话数据发送给服务器110。又例如,用户终端130可以通过网络120将用户的对话数据发送给存储设备150进行存储,客服终端140可以通过网络120将客服的对话数据发送给存储设备150进行存储。用户可以通过用户终端130发起与客服的对话。例如,用户可以通过用户终端130发起投诉,并与客服进行对话。用户可以通过用户终端130输入对话内容,输入的方式包括但不限于打字输入、手写输入、选择输入、语音输入、扫描输入等一种或多种的任意组合。用户终端130可以包括移动设备130-1、平板计算机130-2、膝上型计算机130-3等,或其任何组合。进一步的本文档来自技高网...

【技术保护点】
1.一种自动生成文本摘要的方法,其特征在于,所述方法包括:/n获取文本数据;/n利用抽取式的方式,从所述文本数据中抽取至少一个关键句;/n利用生成式的方式,对所述至少一个关键句进行处理,得到文本摘要。/n

【技术特征摘要】
1.一种自动生成文本摘要的方法,其特征在于,所述方法包括:
获取文本数据;
利用抽取式的方式,从所述文本数据中抽取至少一个关键句;
利用生成式的方式,对所述至少一个关键句进行处理,得到文本摘要。


2.根据权利要求1所述的方法,其特征在于,所述利用抽取式的方式,从所述文本数据中抽取至少一个关键句包括:
使用文本嵌入模型处理所述文本数据,得到至少一个句向量;以及
基于所述至少一个句向量,抽取得到所述至少一个关键句。


3.根据权利要求2所述的方法,其特征在于,所述文本嵌入模型包括快速思考模型或BERT模型;
所述基于所述至少一个句向量,抽取得到所述至少一个关键句,包括:
通过文本排名算法处理所述至少一个句向量,抽取得到至少一个关键句向量;基于至少一个关键句向量获取至少一个关键句。


4.根据权利要求1所述的方法,其特征在于,所述利用生成式的方式,对所述至少一个关键句进行处理,得到文本摘要包括:
使用编码-解码模型和注意力模型对所述关键句进行处理,得到所述文本摘要。


5.根据权利要求1所述的方法,其特征在于,所述文本数据是经过未登录词分解后的文本数据;所述未登录词为不存在于预设词表内的词。


6.根据权利要求5所述的方法,其特征在于,所述未登录词分解包括:
基于所述预设词表确定所述文本数据中的未登录词;
对任一未登录词:
拆分成至少两个字符;
对非末尾字符进行标记,以指示该字符与其后的字符关联。


7.根据权利要求5所述的方法,其特征在于,所述预设词表基于训练语料,利用BPE算法生成。


8.一种自动生成文本摘要的系统,其特征在于,所述系统包括:
第一获取模块,用于获取文本数据;
抽取模块,用于利用抽取式的方式,从所述文本数据中抽取至少一个关键句;
生成模块,用于利用生成式的方式,对所述至少一个关键句进行处理,得到文本摘要。


9.一种自动生成文本摘要的装置,所述装置包括处理器以及存储器;所述存储器用于存储指令,其特征在于,当所述指令被所述处理器执行时,所述装置实现如权利要求1~7中任一项所述的自动生成文本摘要的方法对应的操作。


10.一种自动生成工单描述的方法,其特征在于,所述方法包括:
获取用户与客服的对话数据;
基于所述对话数据,通过...

【专利技术属性】
技术研发人员:陈坦访潘慧王伟玮李奘
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1