一种基于大规模音频表征语言模型的音频理解与生成方法技术

技术编号:38812501 阅读:15 留言:0更新日期:2023-09-15 19:51
本发明专利技术公开了一种基于大规模音频表征语言模型的音频理解与生成方法,包括音频输入;对输入的音频数据进行表征编码;形成的表征编码通过大规模音频表征模型进行理解和生成;通过表征解码得到基于音频输入的音频输出。代替文本进行大规模表征模型的训练,相比于传统的基于文本的大规模语言模型,该模型自动化地获取音频中除文本外的潜在信息,不受制于语言、语种甚至文字的约束,支持更自然的口语化和情感化的智能交互。感化的智能交互。感化的智能交互。

【技术实现步骤摘要】
一种基于大规模音频表征语言模型的音频理解与生成方法


[0001]本专利技术属于人机语言交互领域,特别涉及一种基于大规模音频表征语言模型的音频理解与生成方法。

技术介绍

[0002]随着深度学习技术的快速发展,近年来以开放的GPT为代表的大规模语言模型可以更智能化地理解并回复用户提出的问题而受到广泛的关注。目前大规模语言模型智能化程度极大地提升催生了一系列创新性的应用以及变革性的交互方式。
[0003]现有的音频理解及生成技术将理解和生成通过多个步骤实现,包括音频输入、语音识别:该技术自动化地将音频转化为文字、大规模语言模型:该部分通过对文字信息的理解,生成满足输入文字信息的文字表达、语音合成:该技术将输入到该模块的文字信息转换为音频,实现从文字信息到音频信息的转换。
[0004]随着全球化的进展,地理上的隔离产生的语言和文字上的隔阂大大的影响了文明和信息的交流,如何让更广泛的人群(语系使用人数小于千万,以及中国的少数民族语言)甚至是弱势群体(没有能力写字如文盲、残疾等人群)可以有效的获取信息也至关重要。即使近年来以谷歌为代表的科技公司研发了多语言统一语音识别技术,即可以使用统一的语音识别技术将超过100种语言的语音自动化的识别为文字,该技术的专利技术大大地降低了语音输入的门槛,但语音识别的准确率以及只利用语音中的文字信息,依然会大幅的制约大规模语言模型理解用户的音频。
[0005]而人类在学习知识中,即使我们不会文字表达,也依然可以实现对音频的理解,并结合理解做出相应的反馈,这种理解和反馈机制并不受制于语言、语种等制约。在对现有的语音识别技术分析,发现语音的识别经常表现为语音识别技术听得到音频的发音是什么,但听不懂用户想表达的是什么文字(如:用户输入“OFDM是什么意思”,语音识别结果经常为“哦F滴M是什么意思”)。
[0006]在信息传播中语音作为一种解释性的表述方式,如我们通过文字传递信息时,强调言简意赅,语义明确,通过精炼的文字描述出目的;而通过声音传递时则强调生动形象,通过更口语化和便于理解的方式表述出内容。这样的表述方式的差别导致将语音转换的文本输入到使用文本而学习到的大规模语言模型中,模型无法快速的给出准确且符合预期的反馈。

技术实现思路

[0007]专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于大规模音频表征语言模型的音频理解与生成方法,代替文本进行大规模表征模型的训练,能够自动化的获取音频中除文本外的潜在信息,不受制于语言、语种甚至文字的约束,支持更自然的口语化和情感化的智能交互。
[0008]技术方案:为实现上述目的,本专利技术的技术方案如下:
[0009]一种基于大规模音频表征语言模型的音频理解与生成方法,包括:
[0010]音频输入;
[0011]对输入的音频数据进行表征编码;
[0012]形成的表征编码通过大规模音频表征模型进行理解和生成;
[0013]通过表征解码得到基于音频输入的音频输出。
[0014]进一步的,编码过程:
[0015]音频输入;
[0016]使用卷积神经网络对输入的音频进行编码;
[0017]对卷积神经网络的输出音频特征随机掩码;
[0018]将掩码之后的音频特征通过深度学习得到音频的离散化表征;
[0019]解码过程:
[0020]离散化音频表征输入;
[0021]离散化音频表征经过表征声码器得到时域音频信号。
[0022]进一步的,在输入的音频数据进行离散化表征编码过程中,将高采样率音频数据降采样到预设频率的离散化音频表征,得到的离散化表征进行表征解码器训练;
[0023]使用最小均方误差准则与尺度不变的信号失真比损失函数,来训练表征解码器,将离散化音频表征还原成原始音频,使得编码和解码具有可逆性。
[0024]进一步的,所述大规模音频表征模型的训练方法包括:
[0025]输入音频数据,并对获取的音频数据进行编码表征,生成多任务模型,从音频表征中获取特定的文本、情感、语种信息;
[0026]对音频转换的文本进行约束并添加相应的描述,形成结构化输入,送到基于文本的大规模预训练语言模型中,用以生成符合预期的返回文本;
[0027]将返回的文本与情感、语种信息输入到语音合成模块中得到音频输出;
[0028]利用音频表征编码器对生成的音频数据进行表征编码,用以生成基于表征的大规模表征模型的训练目标,输出目标表征;
[0029]将输入音频的音频表征输入至大规模音频表征语言模型中,得到模型输出的音频表征;
[0030]使用老师

学生学习方法,利用大规模音频表征语言模型输出与目标表征作使用一致性损失函数训练大规模音频表征语言模型;
[0031]使用表征解码器,将大规模音频表征语言模型输出的音频表征解码为时域音频输出。
[0032]进一步的,训练多任务模型,包括基于卷积神经网络层、Conformer网络、时间注意力池化层、线性输出层结合的多任务模型:
[0033]其中文字识别使用连接时序分类损失函数,语种识别使用交叉熵损失函数,情感识别使用交叉熵损失函数;
[0034]在多任务学习中,情感识别和语种识别时针对一个完整的发音单元以及结合音频的上下文信息给出语种和情感的判断,情感和语种识别包含分段时间注意力池化层,具体如下:
[0035]定义Conformer的输出为H=[h1,h2,...,h
T
]∈R
M
×
T
,将H进行分段得到
其中对分段特征进行池化,池化函数为:
[0036][0037]式中:池化函数为权重函数,为分段时间注意力池化后的输出。
[0038]进一步的,生成符合预期的返回文本的步骤包括:
[0039]将从音频中提取的文字、语种、情感信息进行组合,形成范式的结构化文本:“请用x情感y语言,回复

z
’”
,其中:
[0040]情感x,是与输入音频包含的情感因素对应的期望回答时具备的情感;
[0041]语言y,是输入音频的语言,采用和用户相同的语言更加的匹配用户的默认价值观;
[0042]文本内容z,是输入音频通过语音识别技术自动化的将音频转化为相应的文字。
[0043]进一步的,对大规模音频表征模型进行的用户个性化迁移学习方法,包括以下步骤:
[0044]将输入音频数据进行切分,所述音频数据切分为随机切分,各音频序列的时长相等或不完全相等或完全不相等;
[0045]切分后形成多个音频序列,且依次记为X1,X2,

,X
n

[0046]对音频序列X1,X2,

,X
n
进行表征编码得到表征:Z1,Z2,

,Z
n

[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:包括:音频输入;对输入的音频数据进行表征编码;形成的表征编码通过大规模音频表征模型进行理解和生成;通过表征解码得到基于音频输入的音频输出。2.根据权利要求1所述的一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:编码过程:音频输入;使用卷积神经网络对输入的音频进行编码;对卷积神经网络的输出音频特征随机掩码;将掩码之后的音频特征通过深度学习得到音频的离散化表征;解码过程:离散化音频表征输入;离散化音频表征经过表征声码器得到时域音频信号。3.根据权利要求2所述的一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:在输入的音频数据进行离散化表征编码过程中,将高采样率音频数据降采样到预设频率的离散化音频表征,得到的离散化表征进行表征解码器训练;使用最小均方误差准则与尺度不变的信号失真比损失函数,来训练表征解码器,将离散化音频表征还原成原始音频,使得编码和解码具有可逆性。4.根据权利要求1所述的一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:所述大规模音频表征模型的训练方法包括:输入音频数据,并对获取的音频数据进行编码表征,生成多任务模型,从音频表征中获取特定的文本、情感、语种信息;对音频转换的文本进行约束并添加相应的描述,形成结构化输入,送到基于文本的大规模预训练语言模型中,用以生成符合预期的返回文本;将返回的文本与情感、语种信息输入到语音合成模块中得到音频输出;利用音频表征编码器对生成的音频数据进行表征编码,用以生成基于表征的大规模表征模型的训练目标,输出目标表征;将输入音频的音频表征输入至大规模音频表征语言模型中,得到模型输出的音频表征;使用老师

学生学习方法,利用大规模音频表征语言模型输出与目标表征作使用一致性损失函数训练大规模音频表征语言模型;使用表征解码器,将大规模音频表征语言模型输出的音频表征解码为时域音频输出。5.根据权利要求4所述的一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:训练多任务模型,包括基于卷积神经网络层、Conformer网络、时间注意力池化层、线性
输出层结合的多任务模型:其中文字识别使用连接时序分类损失函数,语种识别使用交叉熵损失函数,情感识别使用交叉熵损失函数;在多任务学习中,情感识别和语种识别时针对一个完整的发音单元以及结合音频的上下文信息给出语种和情感的判断,情感和语种识别包含分段时间注意力池化层,具体如下:定义Conformer的输出为H=[h1,h2,...,h
T
]∈R
...

【专利技术属性】
技术研发人员:卢佳欣朱阳燕陈枢茜王君
申请(专利权)人:南通理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1