文本生成方法、电子设备及计算机可读存储介质技术

技术编号:35354914 阅读:17 留言:0更新日期:2022-10-26 12:30
本发明专利技术公开了一种文本生成方法、电子设备及计算机可读存储介质,文本生成方法包括:获取目标主题词集合,并根据目标主题词集合从预设的文档库中筛选得到目标文档集合;从目标文档集合中提取得到关键词集合,并根据目标主题词集合和关键词集合得到关键词相似度;根据关键词相似度从关键词集合中筛选出目标关键词集合,其中,目标关键词集合包括多个目标关键词;对目标关键词集合中的目标关键词进行聚类处理,得到初始目标段落集合;对初始目标段落集合进行段落内文本补充处理,得到最终目标段落集合;对最终目标段落集合进行排序和组合处理,得到目标文本。提高文本生成的速度及生成后文本的整体质量。后文本的整体质量。后文本的整体质量。

【技术实现步骤摘要】
文本生成方法、电子设备及计算机可读存储介质


[0001]本专利技术涉及自然语言处理
,特别涉及一种文本生成方法、电子设备及计算机可读存储介质。

技术介绍

[0002]在自然语言处理领域,自然语言生成是一项基础且具有挑战性的任务。区别于一些已经成熟的下游商业应用,如评论生成,对话生成,以及实况新闻生成,文本智能写作无论是对信息需求量,还是对语句语义的连贯清晰度,都有着更高的要求。这也为该应用的上线服务增添了难度。文本智能写作是一个探索AI(Artificial Intelligence,人工智能)认知能力边界的前沿课题,近年来受到了学术界和工业界的广泛关注。生成一篇具有可读性的文章,需要让机器模拟人类构思和逻辑推演的全过程。在商用领域,一些软件提供了作文的改写,续写功能,从一方面来看,这些软件做到了初步的文本交互,实现了智能写作的商用落地,但从另一方面,它们都需要用户提供充足的文本信息,且按照生成模型的惯性进行小范围的文本生成,性能要求较高且缺乏整体认知,距离高效智能写作还有很大的探索空间。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本专利技术实施例提供了一种文本生成方法、电子设备及计算机可读存储介质,旨在提高文本生成的速度及生成后文本的整体质量。
[0005]为实现上述目的,本专利技术实施例的第一方面提供了一种文本生成方法,包括:获取目标主题词集合,并根据所述目标主题词集合从预设的文档库中筛选得到目标文档集合;从所述目标文档集合中提取得到关键词集合,并根据所述目标主题词集合和所述关键词集合得到关键词相似度;根据所述关键词相似度从所述关键词集合中筛选出目标关键词集合,其中,所述目标关键词集合包括多个目标关键词;对所述目标关键词集合中的所述目标关键词进行聚类处理,得到初始目标段落集合;对所述初始目标段落集合进行段落内文本补充处理,得到最终目标段落集合;对所述最终目标段落集合进行排序和组合处理,得到目标文本。
[0006]在一些实施例中,所述根据所述目标主题词集合从预设的文档库中筛选得到目标文档集合,包括:根据所述目标主题词集合从所述预设的文档库中索引得到多个相关文档;根据所述目标主题词集合和所述多个相关文档计算得到文档相似度;根据所述文档相似度对所述多个相关文档进行排序并筛选得到所述目标文档集合。
[0007]在一些实施例中,当所述段落内文本补充处理为抽取式文本补充处理,所述对所述初始目标段落集合进行段落内文本补充处理,得到最终目标段落集合,包括:提取所述目标文档集合中的多条关键句,得到关键句集合;根据所述关键句集合和一个所述初始目标
段落内的多个所述目标关键词得到关键句相似度;根据所述关键句相似度对所述关键句集合进行排序处理,得到一条所述关键句作为段落中心句;根据所述段落中心句从所述关键句集合中的其他所述关键句中筛选出若干条相关句;对所述段落中心句和所述若干条相关句进行排序处理并组合,得到一个所述最终目标段落。
[0008]在一些实施例中,所述根据所述段落中心句从所述关键句集合中的其他所述关键句中筛选出若干条相关句,包括:将所述段落中心句输入预设的第一生成模型,以使所述第一生成模型输出第一主题概率向量;将所述关键句集合中的其他所述关键句输入预设的第一生成模型,以使所述第一生成模型输出第二主题概率向量;根据所述第一主题概率向量和所述第二主题概率向量得到主题相似度;根据所述主题相似度从所述关键句集合中的其他所述关键句中筛选出若干条所述相关句。
[0009]在一些实施例中,当所述段落内补充处理为生成式文本补充处理,所述对所述初始目标段落集合进行段落内文本补充处理,得到最终目标段落集合,包括:将一个所述初始目标段落内的多个所述目标关键词转换为多个第一词向量;根据所述多个第一词向量计算得到平均词向量,并将所述平均词向量输入预设的第二生成模型,以使所述第二生成模型生成一个文本序列;对所述文本序列进行排序组合处理,得到一个所述最终目标段落。
[0010]在一些实施例中,包括:所述对所述初始目标段落集合进行段落内文本补充处理,包括:获取相关常识集合并根据所述相关常识集合对所述初始目标段落集合进行段落内文本补充处理。
[0011]在一些实施例中,还包括:所述对所述最终目标段落集合进行排序和组合处理,包括:获取相关常识集合并根据所述相关常识集合对所述最终目标段落集合进行排序和组合处理。
[0012]在一些实施例中,所述根据所述目标主题词集合和关键词集合得到关键词相似度,包括:将所述目标主题词集合中的每个所述目标主题词转换为第二词向量,将每个所述关键词转换为第三词向量;将所述第二词向量和所述第三词向量输入预设的第三生成模型,以使所述第三生成模型计算得到所述关键词相似度。
[0013]为实现上述目的,本专利技术实施例的第二方面提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行如上第一方面中任意一项所述的文本生成方法。
[0014]为实现上述目的,本专利技术实施例的第三方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述计算机程序时实现如上第一方面任意一项所述的文本生成方法。
[0015]本专利技术实施例的有益效果包括:通过获取目标主题词集合,并根据目标主题词集合从预设的文档库中筛选得到目标文档集合;从目标文档集合中提取得到关键词集合,并根据目标主题词集合和关键词集合得到关键词相似度;根据关键词相似度从关键词集合中筛选出目标关键词集合,其中,目标关键词集合包括多个目标关键词;对目标关键词集合中的目标关键词进行聚类处理,得到初始目标段落集合;对初始目标段落集合进行段落内文本补充处理,得到最终目标段落集合;对最终目标段落集合进行排序和组合处理,得到目标文本。提高了文本的生成速度及生成后文本的整体质量。
[0016]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变
得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0017]附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。
[0018]图1是本专利技术实施例提供的用于文本生成方法的系统架构平台的示意图;
[0019]图2是本专利技术一个实施例提供的文本生成方法的流程图;
[0020]图3是本专利技术另一个实施例提供的文本生成方法的流程图;
[0021]图4是本专利技术另一个实施例提供的文本生成方法的流程图;
[0022]图5是本专利技术另一个实施例提供的文本生成方法的流程图;
[0023]图6是本专利技术另一实施例提供的文本生成方法的流程图。
具体实施方式
[0024]为了使本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:获取目标主题词集合,并根据所述目标主题词集合从预设的文档库中筛选得到目标文档集合;从所述目标文档集合中提取得到关键词集合,并根据所述目标主题词集合和所述关键词集合得到关键词相似度;根据所述关键词相似度从所述关键词集合中筛选出目标关键词集合,其中,所述目标关键词集合包括多个目标关键词;对所述目标关键词集合中的所述目标关键词进行聚类处理,得到初始目标段落集合;对所述初始目标段落集合进行段落内文本补充处理,得到最终目标段落集合;对所述最终目标段落集合进行排序和组合处理,得到目标文本。2.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述目标主题词集合从预设的文档库中筛选得到目标文档集合,包括:根据所述目标主题词集合从所述预设的文档库中索引得到多个相关文档;根据所述目标主题词集合和所述多个相关文档计算得到文档相似度;根据所述文档相似度对所述多个相关文档进行排序并筛选得到所述目标文档集合。3.根据权利要求1所述的文本生成方法,其特征在于,当所述段落内文本补充处理为抽取式文本补充处理,所述对所述初始目标段落集合进行段落内文本补充处理,得到最终目标段落集合,包括:提取所述目标文档集合中的多条关键句,得到关键句集合;根据所述关键句集合和一个所述初始目标段落内的多个所述目标关键词得到关键句相似度;根据所述关键句相似度对所述关键句集合进行排序处理,得到一条所述关键句作为段落中心句;根据所述段落中心句从所述关键句集合中的其他所述关键句中筛选出若干条相关句;对所述段落中心句和所述若干条相关句进行排序处理并组合,得到一个所述最终目标段落。4.根据权利要求3所述的文本生成方法,其特征在于,所述根据所述段落中心句从所述关键句集合中的其他所述关键句中筛选出若干条相关句,包括:将所述段落中心句输入预设的第一生成模型,以使所述第一生成模型输出第一主题概率向量;将所述关键句集合中的其他所述关键句输入预设的第一生成模型...

【专利技术属性】
技术研发人员:瞿晓阳王健宗陈劲钢
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1