文本的关键信息的抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：25637832 阅读：14 留言：0更新日期：2020-09-15 21:30

本申请公开了一种文本的关键信息的抽取方法、装置、电子设备及存储介质，涉及人工智能领域。具体实现方案为：将原始文本按照预设的切分单元进行切分，并生成所述原始文本对应的单元序列；根据所述单元序列和预先训练的信息抽取模型，采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息；基于所述至少一个目标片段的标识信息，生成关键信息。本申请的技术方案能够将包括连续词语的片段作为一个目标片段进行拷贝，在抽取关键信息的过程中，能够有效地减少需要拷贝的次数，降低积累误差，进而能够有效地提高关键信息抽取的速度和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本的关键信息的抽取方法、装置、电子设备及存储介质
本申请涉及计算机技术，尤其涉及人工智能
，具体涉及一种文本的关键信息的抽取方法、装置、电子设备及存储介质。
技术介绍
文本中的关键信息抽取，即从文本中拷贝关键信息的片段拼接成关键信息，在众多自然语言处理任务中有着广泛的应用。例如，在文本中自动抽取摘要的任务中，可以从正文中拷贝关键信息，作为摘要或者标题。又如，在信息抽取任务中，精确的复制实体以及体现实体间关系的文本，以实现抽取。因而，提高关键信息片段拷贝的精度，可以提高上层应用任务的性能，从而服务于最终产品。现有的文本中的关键信息抽取中，通常采用“字词级拷贝”技术，即一个词语一个词语地进行拷贝，且后一词语的拷贝的准确性也受前一词语拷贝准确性的影响。即使要拷贝的是连续的多个词语构成的片段，也需要按照词语对片段中的每个词语逐个进行拷贝。但是，上述现有的关键信息抽取过程中的字词级拷贝方案，在连续拷贝包括多个词语的片段时，需要连续进行多次拷贝，会积累误差，导致文本的关键信息抽取的准确性较差。
技术实现思路
为了解决上述技术问题，本申请提供了一种用于文本的关键信息的抽取方法、装置、电子设备及存储介质。根据第一方面，提供了一种文本的关键信息的抽取方法，包括：将原始文本按照预设的切分单元进行切分，并生成所述原始文本对应的单元序列；根据所述单元序列和预先训练的信息抽取模型，采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息；基于所述至少一个目标片...

【技术保护点】
1.一种文本的关键信息的抽取方法，其特征在于，包括：/n将原始文本按照预设的切分单元进行切分，并生成所述原始文本对应的单元序列；/n根据所述单元序列和预先训练的信息抽取模型，采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息；/n基于所述至少一个目标片段的标识信息，生成关键信息。/n

【技术特征摘要】
1.一种文本的关键信息的抽取方法，其特征在于，包括：
将原始文本按照预设的切分单元进行切分，并生成所述原始文本对应的单元序列；
根据所述单元序列和预先训练的信息抽取模型，采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息；
基于所述至少一个目标片段的标识信息，生成关键信息。

2.根据权利要求1所述的方法，其特征在于，根据所述单元序列和预先训练的信息抽取模型，采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息，包括：
采用所述信息抽取模型，基于所述单元序列中的各单元，获取所述原始文本的特征表达和所述原始文本中各片段的特征表达；所述片段包括所述原始文本中的一个单元或者两个以上连续单元；
采用所述信息抽取模型，对预设的符号表中的符号进行特征映射，得到所述符号的特征表达；所述符号作为独立的片段；
采用所述信息抽取模型，基于所述原始文本的特征表达、所述原始文本中各片段的特征表达以及所述符号的特征表达进行解码，获取所述至少一个目标片段的标识信息。

3.根据权利要求2所述的方法，其特征在于，采用所述信息抽取模型，基于所述单元序列中的各单元，获取所述原始文本的特征表达和所述原始文本中各片段的特征表达，包括：
采用所述信息抽取模型中的编码器对所述单元序列中各单元进行编码，得到各所述单元的特征表达；
并基于各所述单元的特征表达，生成所述原始文本的特征表达；
采用所述信息抽取模型中的片段表示生成器，基于所述原始文本中的各所述单元的特征表达，生成所述原始文本中各片段的特征表达。

4.根据权利要求2或3所述的方法，其特征在于，采用所述信息抽取模型，基于所述原始文本的特征表达、各所述片段的特征表达以及所述符号的特征表达，进行解码，获取所述至少一个目标片段的标识信息，包括：
将所述原始文本的特征表达作为初始的隐含层状态，采用所述信息抽取模型中的解码器根据所述隐含层状态、各所述片段的特征表达以及各所述符号的特征表达，对各所述片段分别进行打分；并获取分值最高的所述片段的信息，作为所述目标片段的标识信息；
采用所述解码器基于上一步解码得到的所述目标片段的特征表达、更新所述隐含层状态；并根据更新后的所述隐含层状态、以及各所述片段的特征表达和各所述符号的特征表达，对各所述片段及所述符号再次分别进行打分；并获取分值最高的下一个所述目标片段的标识信息；以此类推，直至获取到结束符号或者获取到的所有所述目标片段的字数和达到预设字数阈值，得到所述至少一个目标片段的标识信息。

5.根据权利要求1所述的方法，其特征在于，根据所述单元序列和预先训练的信息抽取模型，采用片段拷贝的原理基于所述原始文本抽取至少一个目标片段的标识信息，包括：
采用所述信息抽取模型，基于所述单元序列中的各单元，获取所述原始文本的特征表达和所述原始文本中各片段的特征表达；所述片段包括所述原始文本中的一个单元或者两个以上连续单元；
采用所述信息抽取模型，分别对预设的符号和预设词表中各词语进行特征映射，得到所述符号的特征表达和各所述词语的特征表达；所述符号和各所述词语分别作为独立的片段；
采用所述信息抽取模型，基于所述原始文本的特征表达、各所述片段的特征表达、所述符号的特征表达以及各所述词语的特征表达，进行解码，获取所述至少一个目标片段的标识信息。

6.一种信息抽取模型的训练方法，其特征在于，包括：
采集数条训练文本和基于训练文本抽取的已知关键信息；
对于各条所述训练文本，将所述训练文本按照预设的切分单元进行切分，生成所述训练文本对应的训练单元序列；并标注所述已知关键信息中包括的各训练目标片段的已知概率分布；
采用各条所述训练文本的所述训练单元序列以及各所述训练目标片段的已知概率分布，对所述信息抽取模型进行训练。

7.根据权利要求6所述的方法，其特征在于，采用各条所述训练文本的所述训练单元序列以及各所述训练目标片段的已知概率分布，对所述信息抽取模型进行训练，包括：
对于各条所述训练文本，基于所述训练单元序列和所述信息抽取模型，生成预测关键信息中各预测目标片段的预测概率分布；
检测所述预测关键信息中各预测目标片段的预测概率分布与所述已知关键信息中对应位置的所述训练目标片段的已知概率分布是否一致；
若不一致，调整所述信息抽取模型的参数，使得各所述预测目标片段的预测概率分布趋于所述已知概率分布。

8.根据权利要求7所述的方法，其特征在于，对于各条所述训练文本，基于所述训练单元序列和所述信息抽取模型，生成预测关键信息中各预测目标片段的预测概率分布，包括：
对于各条所述训练文本，采用所述信息抽取模型，基于所述训练单元序列中的各单元，获取所述训练文本的特征表达和所述训练文本中各片段的特征表达；所述片段包括所述训练文本中的一个单元或者两个以上连续单元；
采用所述信息抽取模型，对预设的符号表中的符号进行特征映射，得到所述符号的特征表达；所述符号作为独立的片段；
采用所述信息抽取模型，基于所述训练文本的特征表达、各所述片段的特征表达以及所述符号的特征表达，进行解码，获取所述预测关键信息中各所述预测目标片段的预测概率分布。

9.根据权利要求8所述的方法，其特征在于，采用所述信息抽取模型，基于所述训练文本的特征表达、各所述片段的特征表达以及所述符号的特征表达，进行解码，获取所述预测关键信息中各所述预测目标片段的预测概率分布，包括：
若解码所述预测关键信息中第一个所述预测目标片段时，采用所述解码器，以所述训练文本的特征表达作为初始的隐含层状态进行解码，获取各所述片段成为所述预测目标片段的概率；并基于各所述片段的概率，生成所述预测关键信息中第一个所述预测目标片段的预测概率分布；
若解码所述预测关键信息中第一个预测目标片段之外的其他预测目标片段时，采用所述编码器，对所述解码得到前一个预测目标片段进行特征映射，得到相应的特征表达；采用所述解码器基于所述前一个预测目标片段的特征表达，更新隐含层状态；并基于更新后的所述隐含层状态，继续解码，获取所述预测关键信息中的所述其他预测目标片段的预测概率分布。

10.根据权利要求7所述的方法，其特征在于，对于各条所述训练文本，基于所述训练单元序列和所述信息抽取模型，生成预测关键信息中各预测目标片段的预测概率分布，包括：
对于各条所述训练文本，采用所述信息抽取模型，基于所述训练单元序列中的各单元，获取所述训练文本的特征表达和所述训练文本中各片段的特征表达；所述片段包括所述训练文本中的一个单元或者两个以上连续单元；
采用所述信息抽取模型，分别对预设的符号和预设词表中各词语进行特征映射，得到所述符号的特征表达和各所述词语的特征表达；所述符号和各所述词语分别作为独立的片段；
采用所述信息抽取模型，基于所述训练文本的特征表达、各所述片段的特征表达、所述符...

【专利技术属性】
技术研发人员：王鑫，孙明明，李平，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人