多语种的带韵律歌词生成方法、系统、设备及存储介质技术方案

技术编号:32780442 阅读:17 留言:0更新日期:2022-03-23 19:38
本发明专利技术公开了一种多语种的带韵律歌词生成方法、系统、设备及存储介质,采用语音生成模型对词语发音进行捕捉,然后生成押韵词对,大大提高生成词的韵脚质量,同时生成过程中采用以韵脚为起始输入的自编码模型,能生成语义更连贯的歌词;而且支持多语种歌词生成,使得生成的押韵词更加多样。成的押韵词更加多样。成的押韵词更加多样。

【技术实现步骤摘要】
多语种的带韵律歌词生成方法、系统、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种多语种的带韵律歌词生成方法、系统、设备及存储介质。

技术介绍

[0002]语音识别方向目前已经较为成熟,在大多数语种中都能够得到相对准确的识别结果。文本生成也是最近自然语言处理中的热门领域,在基于大规模语料库预训练语言模型的加持下,GPT等自回归语言模型已经能在文本生成任务上有着很好的表现。
[0003]通过多语种文本生成,一方面可以面向不同语言的人群进行生成任务,另一方面通过多语种的夹杂能够带来更多的创造性,为歌词创作提供更多的灵感。
[0004]但是,目前歌词生成模型缺少歌曲的灵魂—韵律。目前文本生成模型已经能够产生一些较为流畅的歌词,但是在歌词的韵律方面与人创作相比存在较大差距。尤其在面对一些强调歌词韵律的场景下,如当下在全球比较流行的嘻哈歌词(说唱歌词),模型能力稍显不足。
[0005]目前说唱歌词的生成建模方法如图1所示。
[0006]生成歌词过程中首先确定歌曲主题,根据主题从预定义的歌词中选择第一句作为生成歌词的首句,将其送入训练好的文本生成模型进行歌词生成,最终生成整个歌词。其说唱歌词建模过程的是其方案的主要创新点,模型采用基于LSTM的神经网络结构,语料库来自网易云说唱歌词语料库,通过使用现代汉语拼音体系的声母韵母提取每句歌词的最后1~5个字的拼音,使用结巴分词工具对每句歌词进行分词抽取歌词的关键词语。通过word2vec获取歌词的词向量,获得的词向量和每句后几个词的拼音信息作为训练集对模型进行训练。
[0007]除此之外,该方案中还实现了一套辅助作词系统,通过搜索基于知识的词语,基于语料库的词语和相关韵律词构成的词库中的候选词对目标词进行替换,从而选择性的提供一些候选操作。
[0008]上述方案过程较为简单直观,整个生成模型的参数量不大,生成速度较快,便于上线使用。同时将生成过程分为两个模块,提高了方案的灵活性和可复用性。歌词生成模块可用于生成任意风格的歌词,辅助作词模块一方面可以用来对生成模型中不押韵的词做替换提高歌词的生成质量,一方面可以用来辅助修改词语提高生成句子的多样性。
[0009]上述方案虽然简单可用,但是存在如下缺陷:
[0010]1)使用纯文本建模对韵脚的捕捉能力有限,因此在生成模型中押韵词对生成效果不是很理想,需要辅助作词模块对其进行一定的修正。
[0011]2)方案只针对中文文本,但目前说唱界流行多语种混合说唱,经常在中文中夹杂一些英文单词,也能形成很好的押韵且格调更高。
[0012]3)使用词库进行词语提交虽然具有较高的稳定性,但是由于词库大小的限制会让其多样性相对较差。

技术实现思路

[0013]本专利技术的目的是提供一种多语种的带韵律歌词生成方法、系统、设备及存储介质,可以生成更有节奏感的多语种歌词。
[0014]本专利技术的目的是通过以下技术方案实现的:
[0015]一种多语种的带韵律歌词生成方法,包括:
[0016]从前文歌词中需要押韵的句子中抽取待若干押韵词;对于每一待押韵词,通过语音生成技术生成待押韵词的语音信号,并通过押韵对生成技术生成待押韵词多种新的语音信号,再通过语音识别技术生成所述待押韵词多种新的语音信号对应的多个不同的候选词,将每一候选词与所述待押韵词组成押韵队,筛选出最佳押韵队对应的候选词作为用来生成句子的多语种押韵词;
[0017]根据筛选出的所有多语种押韵词、前文歌词以及识别出的前文歌词的语种信息采用自回归文本生成算法,生成歌词文本。
[0018]一种多语种的带韵律歌词生成系统,基于前述的方法实现,该系统包括:
[0019]多语种押韵词生成模块,用于从前文歌词中需要押韵的句子中抽取若干待押韵词;对于每一待押韵词,通过语音生成技术生成待押韵词的语音信号,并通过押韵对生成技术生成待押韵词多种新的语音信号,再通过语音识别技术生成所述待押韵词多种新的语音信号对应的多个不同的候选词,将每一候选词与所述待押韵词组成押韵队,筛选出最佳押韵队对应的候选词作为用来生成句子的多语种押韵词;
[0020]多语种带韵律的歌词文本生成模块,用于根据筛选出的所有多语种押韵词、前文歌词以及识别出的前文歌词的语种信息采用自回归文本生成算法,生成歌词文本。
[0021]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0022]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0023]一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现前述的方法。
[0024]由上述本专利技术提供的技术方案可以看出,采用语音生成模型对词语发音进行捕捉,然后生成押韵词对,大大提高生成词的韵脚质量,同时生成过程中采用以韵脚为起始输入的自编码模型(也即后文介绍的自回归文本生成模型),能生成语义更连贯的歌词;而且支持多语种歌词生成,使得生成的押韵词更加多样。
附图说明
[0025]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0026]图1为本专利技术
技术介绍
提供的目前说唱歌词生成建模方法的流程图;
[0027]图2为本专利技术实施例提供的一种多语种的带韵律歌词生成方法的流程图;
[0028]图3为本专利技术实施例提供的一种多语种的带韵律歌词生成方法的详细流程图;
[0029]图4为本专利技术实施例提供的多语种TTS模型结构示意图;
[0030]图5为本专利技术实施例提供的Transformer结构的多语种押韵对生成模型示意图;
[0031]图6为本专利技术实施例提供的LAS语音识别模型的结构示意图;
[0032]图7为本专利技术实施例提供的发音信息的bert结构语言模型向量部分设计示意图;
[0033]图8为本专利技术实施例提供的生成模型示意图;
[0034]图9为本专利技术实施例提供的一种多语种的带韵律歌词生成系统的示意图;
[0035]图10为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0036]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0037]首先对本文中可能使用的术语进行如下说明:
[0038]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语种的带韵律歌词生成方法,其特征在于,包括:从前文歌词中需要押韵的句子中抽取待若干押韵词;对于每一待押韵词,通过语音生成技术生成待押韵词的语音信号,并通过押韵对生成技术生成待押韵词多种新的语音信号,再通过语音识别技术生成所述待押韵词多种新的语音信号对应的多个不同的候选词,将每一候选词与所述待押韵词组成押韵队,筛选出最佳押韵队对应的候选词作为用来生成句子的多语种押韵词;根据筛选出的所有多语种押韵词、前文歌词以及识别出的前文歌词的语种信息采用自回归文本生成算法,生成歌词文本。2.根据权利要求1所述的一种多语种的带韵律歌词生成方法,其特征在于,所述需要押韵的句子在前文歌词中随机选取;选取概率跟当前待生成句子所在位置之间的距离满足如下关系:其中,dis(i)、dis(j)分别表示前文歌词中句子i、句子j与当前待生成句子所在位置之间的距离;α为超参数。3.根据权利要求1所述的一种多语种的带韵律歌词生成方法,其特征在于,所述抽取待押韵词,通过语音生成技术生成待押韵词的语音信号包括:根据不同的押韵方式从分词后的需要押韵的句子中抽取不同的替换词作为待押韵词;对于句尾词使用押韵生成策略,如果分词后的句尾词长度为1,则连同前词组成新词后再一同押韵;采用端到端的语音生成模型对输入的待押韵词文本的发音进行捕捉,获得对应的发声,形成语音信号;所述语音合成模型采用多语种语料进行训练。4.根据权利要求1所述的一种多语种的带韵律歌词生成方法,其特征在于,所述通过押韵对生成技术生成待押韵词多种新的语音信号,再通过语音识别技术生成所述待押韵词多种新的语音信号对应的多个不同的候选词包括:使用押韵对生成模型对输入的语音信号进行编解码,获得对应的a种押韵词发音;a为大于1的整数;所述押韵对生成模型通过预先收集的多语种的押韵对进行训练,训练后的押韵对生成模型具备捕捉相应押韵规则的能力。5.根据权利要求1所述的一种多语种的带韵律歌词生成方法,其特征在于,所述通过语音识别技术生成对应的押韵词以及多个不同的候选词包括:采用端到端的语音识别模型对待押韵词每一种新的语音信号进行还原,待押韵词每一种新的语音信号与之最接近的b个词,总共产生a
×
b个候选词,其中,a为大于1的整数,表示押韵词发音的总数;b为大于1的整数;所述语音识别模型采用标注好的多语种语音识别数据训...

【专利技术属性】
技术研发人员:刘权张泰宇郭武陈志刚
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1