一种转述文本生成方法、装置、介质及设备制造方法及图纸

技术编号:32528901 阅读:21 留言:0更新日期:2022-03-05 11:22
本发明专利技术公开了一种转述文本生成方法、装置、介质及设备,属于语言处理技术领域,其主要包括包括:对无标注语料库进行无监督学习得到上下文匹配模型;利用上下文匹配模型得到至少一个给定句子的多个候选转述文本对,进而得到每个给定句子的候选转述文本对集合;根据每个候选转述文本对的两个文本的语义和不同词,得到高质量候选转述文本对集合;以及对每个高质量候选转述文本对集合进行无监督学习得到转述文本生成模型,进一步进行转述文本的生成。本发明专利技术的应用完全不需要标注数据即可得到高质量的转述文本,减少了对标注数据的依赖,缩短了生成标注数据所需的耗时,减少工作量。减少工作量。减少工作量。

【技术实现步骤摘要】
一种转述文本生成方法、装置、介质及设备


[0001]本申请涉及语言处理
,特别是一种转述文本生成方法、装置、存储介质及计算机设备。

技术介绍

[0002]转述文本生成(Paraphrase Generation)是指给定一句话,模型去生成与它有相同语义,但是在形式上不同的句子,比如“你真漂亮”与“你看起来真美”表达的意思是基本相同的,但是在表现形式上(如词汇、语法)是不同的。
[0003]现有的文本转述生成方法大多采用“监督学习”的方法训练模型,也就是对大量的标注数据进行学习一个转述文本生成模型,转述文本生成模型可以学会标注数据中蕴含的转述规则,用于未标注的转述生成。但是,这种监督学习的方法依赖大量的已标注转述文本对,这对数据量是一个较大的挑战,因为人工生成转述文本是比较耗时的,尤其是想要大量的标注数据的时候。比如,当前流行的已标注转述文本对数据集Quora包含140K个句对,仍然不能满足训练大规模神经网络模型的需求。

技术实现思路

[0004]本专利技术提供一种转述文本生成方法、装置、存储介质及计算机设备,完全不需要标注数据即可得到高质量的转述文本,减少了对标注数据的依赖,缩短了生成标注数据所需的耗时,减少工作量。
[0005]为了解决上述问题,本专利技术采用的一个技术方案是:提供一种转述文本生成方法,该方法包括:
[0006]利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型;
[0007]利用上下文匹配模型得到至少一个给定句子的多个上文和多个下文,将每个给定句子、每个给定句子的上文或者每个给定句子的下文两两组合得到每个给定句子分别对应的多个候选转述文本对,进而得到每个给定句子的候选转述文本对集合;
[0008]根据每个候选转述文本对的两个文本的语义和不同词,对每个候选转述文本对集合中低质量的候选转述文本对进行筛除,得到每个给定句子对应的高质量候选转述文本对集合;以及,
[0009]利用语言模型工具对每个高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无监督学习得到转述文本生成模型,进一步利用转述文本生成模型进行转述文本的生成。
[0010]本专利技术采用的另一个技术方案是:提供一种转述文本生成装置,该装置包括:
[0011]上下文匹配模型生成模块,用于利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型的模块;
[0012]候选转述文本对集合生成模块,用于利用上下文匹配模型得到至少一个给定句子
的多个上文和多个下文,将每个给定句子、每个给定句子的上文或者每个给定句子的下文两两组合得到每个给定句子分别对应的多个候选转述文本对,进而得到每个给定句子的候选转述文本对集合的模块;
[0013]高质量候选转述文本对集合生成模块,用于根据每个候选转述文本对的两个文本的语义和不同词,对每个候选转述文本对集合中低质量的候选转述文本对进行筛除,得到每个给定句子对应的高质量候选转述文本对集合的模块;以及,
[0014]转述文本生成模块,用于利用语言模型工具对每个高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无监督学习得到转述文本生成模型,进一步利用转述文本生成模型进行转述文本的生成的模块。
[0015]在本专利技术的另一个技术方案中,提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案中的转述文本生成方法。
[0016]在本专利技术的另一技术方案中,提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中,处理器操作计算机指令以执行方案中的转述文本生成方法。
[0017]本专利技术技术方案可以达到的有益效果是:本专利技术提出一种转述文本生成方法、装置、存储介质及计算机设备,完全不需要标注数据即可得到高质量的转述文本,减少了对标注数据的依赖,缩短了生成标注数据所需的耗时,减少工作量。
附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术一种转述文本生成方法一个具体实施方式的示意图;
[0020]图2为本专利技术一种转述文本生成方法一个具体实例的示意图;
[0021]图3为本专利技术一种转述文本生成装置一个具体实施方式的示意图。
[0022]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0023]下面结合附图对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。
[0024]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0025]图1所示为本专利技术一种转述文本生成方法一个具体实施方式的示意图。
[0026]在该具体实施方式中,转述文本生成方法主要包括:
[0027]过程S101:利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型;
[0028]过程S102:利用上下文匹配模型得到至少一个给定句子的多个上文和多个下文,将每个给定句子、每个给定句子的上文或者每个给定句子的下文两两组合得到每个给定句子分别对应的多个候选转述文本对,进而得到每个给定句子的候选转述文本对集合;
[0029]过程S103:根据每个候选转述文本对的两个文本的语义和不同词,对每个候选转述文本对集合中低质量的候选转述文本对进行筛除,得到每个给定句子对应的高质量候选转述文本对集合;
[0030]过程S104:利用语言模型工具对每个高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无监督学习得到转述文本生成模型,进一步利用转述文本生成模型进行转述文本的生成。
[0031]通过本专利技术提出的一种转述文本生成方法,完全不需要标注数据即可得到高质量的转述文本,减少了对标注数据的依赖,缩短了生成标注数据所需本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种转述文本生成方法,其特征在于,包括,利用语言模型工具对预先确定的无标注语料库中每个句子的上下文匹配关系进行无监督学习得到上下文匹配模型;利用所述上下文匹配模型得到至少一个给定句子的多个上文和多个下文,将每个所述给定句子、每个所述给定句子的上文或者每个所述给定句子的下文两两组合得到每个所述给定句子分别对应的多个候选转述文本对,进而得到每个所述给定句子的候选转述文本对集合;根据每个所述候选转述文本对的两个文本的语义和不同词,对每个所述候选转述文本对集合中低质量的所述候选转述文本对进行筛除,得到每个所述给定句子对应的高质量候选转述文本对集合;以及,利用所述语言模型工具对每个所述高质量候选转述文本对集合中每个候选转述文本对的转述规则进行无监督学习得到转述文本生成模型,进一步利用所述转述文本生成模型进行所述转述文本的生成。2.如权利要求1所述的转述文本生成方法,其特征在于,在得到所述高质量候选转述文本对集合之后,利用所述语言模型工具对所述高质量候选转述文本对集合以及已标注转述文本对集合中每个文本对的转述规则进行学习得到所述转述文本生成模型,进一步利用所述转述文本生成模型进行所述转述文本的生成。3.如权利要求1所述的转述文本生成方法,其特征在于,所述根据每个所述候选转述文本对的两个文本的语义和不同词,对每个所述候选转述文本对集合中低质量的所述候选转述文本对进行筛除,得到每个所述给定句子对应的高质量候选转述文本对集合的过程包括,利用打分函数根据所述候选转述文本对的两个文本的语义对所述候选转述文本对的匹配性得分以及相似性得分进行打分,并且根据所述候选转述文本对的两个文本中的不同词的个数对所述候选转述文本对的多样性得分进行打分;以及,根据所述匹配性得分、所述相似性得分以及所述多样性得分对每个所述候选转述文本对集合中低质量的所述候选转述文本对进行筛除,得到每个所述给定句子对应的高质量候选转述文本对集合;其中,所述匹配性得分为将所述候选转述文本对对应的所述给定句子作为其上下文时,所述候选转述文本对与其对应的所述给定句子之间的匹配程度得分;所述相似性得分为所述候选转述文本对的两个文本的语义相似程度得分;所述多样性得分为所述候选转述文本对的两个文本的形式差异程度得分。4.如权利要求3所述的转述文本生成...

【专利技术属性】
技术研发人员:李晓雅卢辰鑫何豪杰王思宽王铎
申请(专利权)人:浙江香侬慧语科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1