文本的关键信息的抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25637832 阅读:14 留言:0更新日期:2020-09-15 21:30
本申请公开了一种文本的关键信息的抽取方法、装置、电子设备及存储介质,涉及人工智能领域。具体实现方案为:将原始文本按照预设的切分单元进行切分,并生成所述原始文本对应的单元序列;根据所述单元序列和预先训练的信息抽取模型,采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息;基于所述至少一个目标片段的标识信息,生成关键信息。本申请的技术方案能够将包括连续词语的片段作为一个目标片段进行拷贝,在抽取关键信息的过程中,能够有效地减少需要拷贝的次数,降低积累误差,进而能够有效地提高关键信息抽取的速度和准确性。

【技术实现步骤摘要】
文本的关键信息的抽取方法、装置、电子设备及存储介质
本申请涉及计算机技术,尤其涉及人工智能
,具体涉及一种文本的关键信息的抽取方法、装置、电子设备及存储介质。
技术介绍
文本中的关键信息抽取,即从文本中拷贝关键信息的片段拼接成关键信息,在众多自然语言处理任务中有着广泛的应用。例如,在文本中自动抽取摘要的任务中,可以从正文中拷贝关键信息,作为摘要或者标题。又如,在信息抽取任务中,精确的复制实体以及体现实体间关系的文本,以实现抽取。因而,提高关键信息片段拷贝的精度,可以提高上层应用任务的性能,从而服务于最终产品。现有的文本中的关键信息抽取中,通常采用“字词级拷贝”技术,即一个词语一个词语地进行拷贝,且后一词语的拷贝的准确性也受前一词语拷贝准确性的影响。即使要拷贝的是连续的多个词语构成的片段,也需要按照词语对片段中的每个词语逐个进行拷贝。但是,上述现有的关键信息抽取过程中的字词级拷贝方案,在连续拷贝包括多个词语的片段时,需要连续进行多次拷贝,会积累误差,导致文本的关键信息抽取的准确性较差。
技术实现思路
为了解决上述技术问题,本申请提供了一种用于文本的关键信息的抽取方法、装置、电子设备及存储介质。根据第一方面,提供了一种文本的关键信息的抽取方法,包括:将原始文本按照预设的切分单元进行切分,并生成所述原始文本对应的单元序列;根据所述单元序列和预先训练的信息抽取模型,采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息;基于所述至少一个目标片段的标识信息,生成关键信息。根据第二方面,提供了一种信息抽取模型的训练方法,包括:采集数条训练文本和基于训练文本抽取的已知关键信息;对于各条所述训练文本,将所述训练文本按照预设的切分单元进行切分,生成所述训练文本对应的训练单元序列;并标注所述已知关键信息中包括的各训练目标片段的已知概率分布;采用各条所述训练文本的所述训练单元序列以及各所述训练目标片段的已知概率分布,对所述信息抽取模型进行训练。根据第三方面,提供了一种文本的关键信息的抽取装置,包括:切分处理模块,用于将原始文本按照预设的切分单元进行切分,并生成所述原始文本对应的单元序列;抽取处理模块,用于根据所述单元序列和预先训练的信息抽取模型,采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息;生成模块,用于基于所述至少一个目标片段的标识信息,生成关键信息。根据第四方面,提供了一种信息抽取模型的训练装置,包括:采集模块,用于采集数条训练文本和基于训练文本抽取的已知关键信息;生成模块,用于对于各条所述训练文本,将所述训练文本按照预设的切分单元进行切分,生成所述训练文本对应的训练单元序列;并标注所述已知关键信息中包括的各训练目标片段的已知概率分布;训练模块,用于采用各条所述训练文本的所述训练单元序列以及各所述训练目标片段的已知概率分布,对所述信息抽取模型进行训练。根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。根据本申请的技术解决了现有技术的字词级的拷贝方案准确性差的问题,能够将包括连续词语的片段可以作为一个目标片段进行拷贝,在抽取关键信息的过程中,能够有效地减少需要拷贝的次数,降低积累误差,进而能够有效地提高关键信息抽取的速度和准确性。另外,本申请还通过对信息抽取模型进行训练,可以使得训练的信息抽取模型为一个端到端的预测模型,在输入单元序列时,可以直接预测到关键信息对应的多个目标片段,进而可以基于多个目标片段生成关键信息,使用非常方便。而且本申请训练的信息抽取模型,基于片段实现拷贝,关键信息抽取的速度和准确性都非常高。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的示意图;图2是根据本申请第二实施例的示意图;图3是根据本申请第三实施例的示意图;图4是根据本申请第四实施例的示意图;图5是根据本申请第五实施例的示意图;图6是根据本申请第六实施例的示意图;图7是根据本申请第七实施例的示意图;图8是根据本申请第八实施例的示意图;图9是根据本申请第九实施例的示意图;图10是根据本申请第十实施例的示意图;图11是用来实现本申请实施例的上述相关方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请第一实施例的示意图;如图1所示,本实施例提供一种文本的关键信息的抽取方法,具体可以包括如下步骤:S101、将原始文本按照预设的切分单元进行切分,并生成原始文本对应的单元序列;本实施例的文本的关键信息的抽取方法的执行主体为文本的关键信息的抽取装置,该装置用于基于原始文本抽取关键信息,如可以抽取原始文本的标题或者摘要等关键信息。具体地,该步骤中将原始文本按照预设的切分单元进行切分时,所选择的预设的切分单元可以为词或者字。若按照字对原始文本进行切分时,实现较为简单,即将原始文本中每个字作为一个独立的单元,进行切分,并按照在原始文本中的先后顺序排列,可以得到该原始文本对应的单元序列。若按照词对原始文本进行切分时,具体可以参考的相关分词策略,切分时,使得每个分词作为一个独立的切分单元,并按照切分后的各单元在原始文本中的先后顺序排列,得到对应的单元序列。本实施例中按照词切分时,得到的每个单元中可以包括一个字,也可以包括两个或者多个字。S102、根据单元序列和预先训练的信息抽取模型,采用片段拷贝的原理基于原始文本抽取至少一个目标片段的标识信息;具体地,将单元序列输入至预先训练的该信息抽取模型中,该信息抽取模型可以采用片段拷贝的原理,基于单元序列中提供的原始文本中的各单元,基于原始文本抽取至少一个目标片段的标识信息。其中的片段拷贝的原理为可以一次性拷贝包括两个以上单元的文本。例如,在提取摘要时,原始文本中有连续10个文字都需要被提取,若采用现有的字级别的提取方式,需要提取10次。而本实施例的片段拷贝的原理,可以本文档来自技高网...

【技术保护点】
1.一种文本的关键信息的抽取方法,其特征在于,包括:/n将原始文本按照预设的切分单元进行切分,并生成所述原始文本对应的单元序列;/n根据所述单元序列和预先训练的信息抽取模型,采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息;/n基于所述至少一个目标片段的标识信息,生成关键信息。/n

【技术特征摘要】
1.一种文本的关键信息的抽取方法,其特征在于,包括:
将原始文本按照预设的切分单元进行切分,并生成所述原始文本对应的单元序列;
根据所述单元序列和预先训练的信息抽取模型,采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息;
基于所述至少一个目标片段的标识信息,生成关键信息。


2.根据权利要求1所述的方法,其特征在于,根据所述单元序列和预先训练的信息抽取模型,采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息,包括:
采用所述信息抽取模型,基于所述单元序列中的各单元,获取所述原始文本的特征表达和所述原始文本中各片段的特征表达;所述片段包括所述原始文本中的一个单元或者两个以上连续单元;
采用所述信息抽取模型,对预设的符号表中的符号进行特征映射,得到所述符号的特征表达;所述符号作为独立的片段;
采用所述信息抽取模型,基于所述原始文本的特征表达、所述原始文本中各片段的特征表达以及所述符号的特征表达进行解码,获取所述至少一个目标片段的标识信息。


3.根据权利要求2所述的方法,其特征在于,采用所述信息抽取模型,基于所述单元序列中的各单元,获取所述原始文本的特征表达和所述原始文本中各片段的特征表达,包括:
采用所述信息抽取模型中的编码器对所述单元序列中各单元进行编码,得到各所述单元的特征表达;
并基于各所述单元的特征表达,生成所述原始文本的特征表达;
采用所述信息抽取模型中的片段表示生成器,基于所述原始文本中的各所述单元的特征表达,生成所述原始文本中各片段的特征表达。


4.根据权利要求2或3所述的方法,其特征在于,采用所述信息抽取模型,基于所述原始文本的特征表达、各所述片段的特征表达以及所述符号的特征表达,进行解码,获取所述至少一个目标片段的标识信息,包括:
将所述原始文本的特征表达作为初始的隐含层状态,采用所述信息抽取模型中的解码器根据所述隐含层状态、各所述片段的特征表达以及各所述符号的特征表达,对各所述片段分别进行打分;并获取分值最高的所述片段的信息,作为所述目标片段的标识信息;
采用所述解码器基于上一步解码得到的所述目标片段的特征表达、更新所述隐含层状态;并根据更新后的所述隐含层状态、以及各所述片段的特征表达和各所述符号的特征表达,对各所述片段及所述符号再次分别进行打分;并获取分值最高的下一个所述目标片段的标识信息;以此类推,直至获取到结束符号或者获取到的所有所述目标片段的字数和达到预设字数阈值,得到所述至少一个目标片段的标识信息。


5.根据权利要求1所述的方法,其特征在于,根据所述单元序列和预先训练的信息抽取模型,采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息,包括:
采用所述信息抽取模型,基于所述单元序列中的各单元,获取所述原始文本的特征表达和所述原始文本中各片段的特征表达;所述片段包括所述原始文本中的一个单元或者两个以上连续单元;
采用所述信息抽取模型,分别对预设的符号和预设词表中各词语进行特征映射,得到所述符号的特征表达和各所述词语的特征表达;所述符号和各所述词语分别作为独立的片段;
采用所述信息抽取模型,基于所述原始文本的特征表达、各所述片段的特征表达、所述符号的特征表达以及各所述词语的特征表达,进行解码,获取所述至少一个目标片段的标识信息。


6.一种信息抽取模型的训练方法,其特征在于,包括:
采集数条训练文本和基于训练文本抽取的已知关键信息;
对于各条所述训练文本,将所述训练文本按照预设的切分单元进行切分,生成所述训练文本对应的训练单元序列;并标注所述已知关键信息中包括的各训练目标片段的已知概率分布;
采用各条所述训练文本的所述训练单元序列以及各所述训练目标片段的已知概率分布,对所述信息抽取模型进行训练。


7.根据权利要求6所述的方法,其特征在于,采用各条所述训练文本的所述训练单元序列以及各所述训练目标片段的已知概率分布,对所述信息抽取模型进行训练,包括:
对于各条所述训练文本,基于所述训练单元序列和所述信息抽取模型,生成预测关键信息中各预测目标片段的预测概率分布;
检测所述预测关键信息中各预测目标片段的预测概率分布与所述已知关键信息中对应位置的所述训练目标片段的已知概率分布是否一致;
若不一致,调整所述信息抽取模型的参数,使得各所述预测目标片段的预测概率分布趋于所述已知概率分布。


8.根据权利要求7所述的方法,其特征在于,对于各条所述训练文本,基于所述训练单元序列和所述信息抽取模型,生成预测关键信息中各预测目标片段的预测概率分布,包括:
对于各条所述训练文本,采用所述信息抽取模型,基于所述训练单元序列中的各单元,获取所述训练文本的特征表达和所述训练文本中各片段的特征表达;所述片段包括所述训练文本中的一个单元或者两个以上连续单元;
采用所述信息抽取模型,对预设的符号表中的符号进行特征映射,得到所述符号的特征表达;所述符号作为独立的片段;
采用所述信息抽取模型,基于所述训练文本的特征表达、各所述片段的特征表达以及所述符号的特征表达,进行解码,获取所述预测关键信息中各所述预测目标片段的预测概率分布。


9.根据权利要求8所述的方法,其特征在于,采用所述信息抽取模型,基于所述训练文本的特征表达、各所述片段的特征表达以及所述符号的特征表达,进行解码,获取所述预测关键信息中各所述预测目标片段的预测概率分布,包括:
若解码所述预测关键信息中第一个所述预测目标片段时,采用所述解码器,以所述训练文本的特征表达作为初始的隐含层状态进行解码,获取各所述片段成为所述预测目标片段的概率;并基于各所述片段的概率,生成所述预测关键信息中第一个所述预测目标片段的预测概率分布;
若解码所述预测关键信息中第一个预测目标片段之外的其他预测目标片段时,采用所述编码器,对所述解码得到前一个预测目标片段进行特征映射,得到相应的特征表达;采用所述解码器基于所述前一个预测目标片段的特征表达,更新隐含层状态;并基于更新后的所述隐含层状态,继续解码,获取所述预测关键信息中的所述其他预测目标片段的预测概率分布。


10.根据权利要求7所述的方法,其特征在于,对于各条所述训练文本,基于所述训练单元序列和所述信息抽取模型,生成预测关键信息中各预测目标片段的预测概率分布,包括:
对于各条所述训练文本,采用所述信息抽取模型,基于所述训练单元序列中的各单元,获取所述训练文本的特征表达和所述训练文本中各片段的特征表达;所述片段包括所述训练文本中的一个单元或者两个以上连续单元;
采用所述信息抽取模型,分别对预设的符号和预设词表中各词语进行特征映射,得到所述符号的特征表达和各所述词语的特征表达;所述符号和各所述词语分别作为独立的片段;
采用所述信息抽取模型,基于所述训练文本的特征表达、各所述片段的特征表达、所述符...

【专利技术属性】
技术研发人员:王鑫孙明明李平
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1