文本生成方法技术

技术编号:39721007 阅读:13 留言:0更新日期:2023-12-17 23:27
本发明专利技术提供一种文本生成方法

【技术实现步骤摘要】
文本生成方法、装置、电子设备和存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本生成方法

装置

电子设备和存储介质


技术介绍

[0002]文本生成是指通过计算机程序

人工智能模型或自然语言处理技术来生成自然语言文本的过程

在生成文本的过程中,通常文本生成模型会根据当前的输入和上下文信息预测下一个最有可能的词或字符

束搜索通过维护一个候选文本序列集合,并根据预测的概率对这些文本序列进行扩展和排序,从而选择最有可能的输出文本序列

[0003]然而,现有的束搜索在输入输出内存共享的情况下,在每次选取新的候选输出文本序列时,需要完全拷贝新的候选输出文本序列中的各分词至对应内存,拷贝开销较大


技术实现思路

[0004]本专利技术提供一种文本生成方法

装置

电子设备和存储介质,用以解决现有技术中文本生成拷贝开销较大的缺陷

[0005]本专利技术提供一种文本生成方法,包括:
[0006]对文本特征进行词语生成,得到多个分词;
[0007]对所述多个分词进行排序,得到生成文本;
[0008]其中,在对所述多个分词进行排序的过程中,基于所述多个分词获取各时间步的文本序列,其中各时间步的文本序列中的分词数量随时间步递增,且任一时间步的文本序列的分词顺序是以最大化所述任一时间步与上一时间步的文本序列间相同排序的分词数量为目标进行调整的,所述生成文本基于最后一个时间步的文本序列确定

[0009]根据本专利技术提供的一种文本生成方法,所述任一时间步的文本序列的分词顺序的调整步骤包括:
[0010]按照所述上一时间步的文本序列的分词顺序,遍历所述上一时间步的文本序列中的各分词;
[0011]在所述任一时间步的文本序列中存在任一分词与所述上一时间步的文本序列中当前位置的分词相同的情况下,将所述任一时间步的文本序列对应的分词添加至数组,并删除所述任一时间步的文本序列对应的分词;
[0012]遍历完成所述上一时间步的文本序列中的各分词后,将所述任一时间步的文本序列中的剩余分词按照分词顺序依次添加至所述数组,以所述数组的分词顺序作为所述任一时间步的文本序列调整后的分词顺序

[0013]根据本专利技术提供的一种文本生成方法,所述调整步骤还包括:
[0014]在所述任一时间步的文本序列中存在任一分词与所述上一时间步的文本序列中当前位置的分词不同的情况下,返回执行按照所述上一时间步的文本序列的分词顺序,遍历所述上一时间步的文本序列中的各分词

[0015]根据本专利技术提供的一种文本生成方法,所述任一时间步的文本序列的分词顺序的调整步骤包括:
[0016]在所述上一时间步的文本序列中当前位置的分词与所述任一时间步的文本序列中对应当前位置的分词不同的情况下,遍历所述任一时间步的文本序列中对应当前位置之后的分词;
[0017]在遍历后确定所述任一时间步的文本序列中存在任一分词与所述上一时间步的文本序列中当前位置的分词相同的情况下,将所述任一时间步的文本序列中对应的分词调整至当前位置

[0018]根据本专利技术提供的一种文本生成方法,所述调整步骤还包括:
[0019]在所述上一时间步的文本序列中当前位置的分词与所述任一时间步的文本序列中对应当前位置的分词相同的情况下,以所述上一时间步的文本序列中下一分词的位置作为所述当前位置

[0020]根据本专利技术提供的一种文本生成方法,所述生成文本的确定步骤包括:
[0021]确定各分词在不同位置对应的概率;
[0022]基于各分词在不同位置对应的概率,对所述最后一个时间步的文本序列进行分词排序,得到所述生成文本

[0023]根据本专利技术提供的一种文本生成方法,所述任一时间步的文本序列中分词的数量为
i
,所述任一时间步的文本序列对应上一时间步的文本序列中分词的数量为
i

1。
[0024]本专利技术还提供一种文本生成装置,包括:
[0025]本专利技术还提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述文本生成方法

[0026]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本生成方法

[0027]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本生成方法

[0028]本专利技术提供的文本生成方法

装置

电子设备和存储介质,个分词进行排序的过程中,任一时间步的文本序列的分词顺序以最大化任一时间步与上一时间步的文本序列间相同排序的分词数量为目标进行调整,从而可以保证任一时间步与上一时间步的文本序列中的分词排序最大化程度一一对应,避免在选取任一时间步的文本序列时需要重复拷贝与上一时间步的文本序列中相同分词所带来的额外拷贝开销的问题

附图说明
[0029]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0030]图1是本专利技术提供的文本生成方法的流程示意图;
[0031]图2是本专利技术提供的基于束搜索的文本序列生成方法示意图;
[0032]图3是本专利技术提供的分词顺序调整步骤的流程示意图之一;
[0033]图4是本专利技术提供的分词顺序调整步骤的流程示意图之二;
[0034]图5是本专利技术提供的生成文本确定步骤的流程示意图;
[0035]图6是本专利技术提供的文本生成装置的结构示意图;
[0036]图7是本专利技术提供的电子设备的结构示意图

具体实施方式
[0037]为使本专利技术的目的

技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0038]现有的束搜索在输入输出内存共享的情况下,若新的候选输出文本序列和上一次的输出文本序列没有一一对应,则每次选取新的候选输出文本序列时,额外涉及到一个拷贝本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本生成方法,其特征在于,包括:对文本特征进行词语生成,得到多个分词;对所述多个分词进行排序,得到生成文本;其中,在对所述多个分词进行排序的过程中,基于所述多个分词获取各时间步的文本序列,其中各时间步的文本序列中的分词数量随时间步递增,且任一时间步的文本序列的分词顺序是以最大化所述任一时间步与上一时间步的文本序列间相同排序的分词数量为目标进行调整的,所述生成文本基于最后一个时间步的文本序列确定
。2.
根据权利要求1所述的文本生成方法,其特征在于,所述任一时间步的文本序列的分词顺序的调整步骤包括:按照所述上一时间步的文本序列的分词顺序,遍历所述上一时间步的文本序列中的各分词;在所述任一时间步的文本序列中存在任一分词与所述上一时间步的文本序列中当前位置的分词相同的情况下,将所述任一时间步的文本序列对应的分词添加至数组,并删除所述任一时间步的文本序列对应的分词;遍历完成所述上一时间步的文本序列中的各分词后,将所述任一时间步的文本序列中的剩余分词按照分词顺序依次添加至所述数组,以所述数组的分词顺序作为所述任一时间步的文本序列调整后的分词顺序
。3.
根据权利要求2所述的文本生成方法,其特征在于,所述调整步骤还包括:在所述任一时间步的文本序列中存在任一分词与所述上一时间步的文本序列中当前位置的分词不同的情况下,返回执行按照所述上一时间步的文本序列的分词顺序,遍历所述上一时间步的文本序列中的各分词
。4.
根据权利要求1所述的文本生成方法,其特征在于,所述任一时间步的文本序列的分词顺序的调整步骤包括:在所述上一时间步的文本序列中当前位置的分词与所述任一时间步的文本序列中对应当前位置的分词不同的情况下,遍历所述任一时间步的文本序列中对应当前位置之后的分词;在遍历后确定所述任一时间步的文本序列中存在任一分词与所述上一时间步的文本序列中当前位置的分词相同的情况下,将所述任一时间步的文本序列中对...

【专利技术属性】
技术研发人员:赵伟淇胡国平吴江照
申请(专利权)人:合肥智能语音创新发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1