一种基于动态知识引导的摘要生成方法技术

技术编号：39654003 阅读：21 留言：0更新日期：2023-12-09 11:22

。。。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态知识引导的摘要生成方法、系统及装置

[0001]本专利技术属于摘要生成
，尤其涉及一种基于动态知识引导的摘要生成方法
、
系统及装置
。

技术介绍

[0002]摘要生成是自然语言处理中的一项重要任务，该任务是为较长的源文本生成一个最代表其主要信息的简短的摘要
。
摘要任务使得用户只需要阅读摘要就能获取原始文本的主要内容，让用户在短时间内可以阅读大量的文本，从而节省用户的时间，提高工作效率
。
文本摘要技术在新闻领域
、
医疗领域
、
科技文献领域都发挥了重要的作用，使得该技术在各种领域都得到了广泛应用
。
[0003]近年来，摘要生成方法主要分为基于抽取式的方法和基于生成式的方法
。
基于抽取式的方法专注于从原始文本中抽取出完整的句子，然后构成最终的摘要
。
随着深度学习技术的发展以及计算机硬件技术的成熟，越来越多的人开始关注基于生成式的摘要生成方法
。
相比抽取式的摘要生成技术，基于生成式的摘要生成方法和人类生成摘要过程更加相似，但是挑战性更大
。
此外，和抽取式生成方法这种简单从原始文本中抽取句子的方式不同，基于生成式摘要生成技术可以生成原始文档中不存在的新颖的单词，更加达到总结的目的
。
[0004]现在基于生成式的摘要生成技术的主要问题是生成的摘要比较空洞，具体表现为摘要中没有包含原始文档的具体信息，只是泛泛的...

【技术保护点】

【技术特征摘要】
1.
一种基于动态知识引导的摘要生成方法，其特征在于，该方法包括以下步骤：步骤一，收集原始文本数据，标注原始文本数据对应的摘要，构建训练集；步骤二，利用开放信息抽取技术，对训练集文本进行信息抽取获取结构化三元组，按长度和数量进行筛选后，构建结构化三元组知识库；步骤三，基于序列编码器文本模型构建原始文本的字符级向量表示，进而构建结构化三元组的向量表示，基于当前文本摘要的字符向量表示，根据动态选择机制，通过摘要生成的解码器文本模型得到下一个即将生成的文本摘要的字符向量表示；所述动态选择机制根据摘要对三元组的相关度分数筛选三元组，将筛选出来的三元组向量表示和当前的摘要字符的向量表示融合，得到最新的摘要字符的向量表示，生成最终的摘要字符；步骤四，基于生成的摘要字符和标注的摘要中的字符，计算序列编码器文本模型和摘要生成的解码器文本模型的损失，更新序列编码器文本模型和摘要生成的解码器文本模型的权重，基于更新后的序列编码器文本模型和解码器文本模型生成摘要
。2.
根据权利要求1中所述的一种基于动态知识引导的摘要生成方法，其特征在于，所述步骤二中，按照长度和数量对三元组进行过滤，具体为：过滤掉实体单词数大于
10
的三元组，并且每个原始文本只保留最多
50
个三元组
。3.
根据权利要求1中所述的一种基于动态知识引导的摘要生成方法，其特征在于，步骤三具体包括以下步骤；（
3.1
）训练原始文本的序列编码器文本模型，获取原始文本的字符级向量表示；（
3.2
）对知识库中结构化三元组，基于获取的原始文本的字符级向量表示，构建结构化三元组的向量表示；（
3.3
）训练摘要生成的解码器文本模型；基于获取的原始文本的字符级向量表示
、
结构化三元组的向量表示以及当前已经生成的文本摘要的字符向量表示，根据动态选择机制，得到下一个即将生成的文本摘要的字符向量表示
。4.
根据权利要求3中所述的一种基于动态知识引导的摘要生成方法，其特征在于，动态选择机制具体如下：（
3.3.1
）对当前摘要中字符的向量表示和知识库中结构化三元组的向量表示进行多轮点积，得到摘要对知识库中三元组的相关度分数；（
3.3.2
）根据相关度分数，保留相关度分数最大的指定数量的三元组，其余三元组相关度分数置为零，得到更新后的摘要中的字符对知识库中三元组的相关度分数；（
3.3.3
）根据更新后的相关度分数，融合当前的摘要字符的向量表示和相关度分数最大指定数量三元组向量表示，得到最新的摘要字符的向量表示，生成最终的摘要字符
。5.
根据权利要求3中所述的一种基于动态知识引导的摘要生成方法，其特征在于，构建三元组的向量表示，具体为：输入的原始文本为
,
其中是原始文本的字符长度，表示原始文本中第个字符；输入的三元组知识
, 其中是三元组的数量，表示第个三元组，每个三元组的形式为，其中表示头实体，表示尾实体，表示头实体和尾实体之间的关系；每个原始文本对应的摘要为：，其中表示摘要字符长度，并且，表示摘要中第个字符；
使用序列编码模型得到原始文本的字符级向量表示：对于输入文本，通过序列编码模型获取每个字符的语义向量表示，表示第个字符的向量表示；根据得到的输入文本的语义向量表示，构建第个三元组的向量表示，具体为：对于头实体，
、
分别表示头实体在原始文本中的开始位置和结束位置，根据这些位置信息从输入文本的向量表示中提取出头实体的向量表示；以此类推，对于关系，尾实体，用同样的提取方式分别得到对应的关系向量表示和尾实体的向量表示，再用线性变换得到第个三元组的向量表示为...

【专利技术属性】
技术研发人员：鲁伟明，程孝侠，
申请(专利权)人：东海实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人