【技术实现步骤摘要】
一种基于大规模音频表征语言模型的音频理解与生成方法
[0001]本专利技术属于人机语言交互领域,特别涉及一种基于大规模音频表征语言模型的音频理解与生成方法。
技术介绍
[0002]随着深度学习技术的快速发展,近年来以开放的GPT为代表的大规模语言模型可以更智能化地理解并回复用户提出的问题而受到广泛的关注。目前大规模语言模型智能化程度极大地提升催生了一系列创新性的应用以及变革性的交互方式。
[0003]现有的音频理解及生成技术将理解和生成通过多个步骤实现,包括音频输入、语音识别:该技术自动化地将音频转化为文字、大规模语言模型:该部分通过对文字信息的理解,生成满足输入文字信息的文字表达、语音合成:该技术将输入到该模块的文字信息转换为音频,实现从文字信息到音频信息的转换。
[0004]随着全球化的进展,地理上的隔离产生的语言和文字上的隔阂大大的影响了文明和信息的交流,如何让更广泛的人群(语系使用人数小于千万,以及中国的少数民族语言)甚至是弱势群体(没有能力写字如文盲、残疾等人群)可以有效的获取信息也至关重要。即使近年来以谷歌为代表的科技公司研发了多语言统一语音识别技术,即可以使用统一的语音识别技术将超过100种语言的语音自动化的识别为文字,该技术的专利技术大大地降低了语音输入的门槛,但语音识别的准确率以及只利用语音中的文字信息,依然会大幅的制约大规模语言模型理解用户的音频。
[0005]而人类在学习知识中,即使我们不会文字表达,也依然可以实现对音频的理解,并结合理解做出相应的反馈,这种理解和反馈机制 ...
【技术保护点】
【技术特征摘要】
1.一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:包括:音频输入;对输入的音频数据进行表征编码;形成的表征编码通过大规模音频表征模型进行理解和生成;通过表征解码得到基于音频输入的音频输出。2.根据权利要求1所述的一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:编码过程:音频输入;使用卷积神经网络对输入的音频进行编码;对卷积神经网络的输出音频特征随机掩码;将掩码之后的音频特征通过深度学习得到音频的离散化表征;解码过程:离散化音频表征输入;离散化音频表征经过表征声码器得到时域音频信号。3.根据权利要求2所述的一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:在输入的音频数据进行离散化表征编码过程中,将高采样率音频数据降采样到预设频率的离散化音频表征,得到的离散化表征进行表征解码器训练;使用最小均方误差准则与尺度不变的信号失真比损失函数,来训练表征解码器,将离散化音频表征还原成原始音频,使得编码和解码具有可逆性。4.根据权利要求1所述的一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:所述大规模音频表征模型的训练方法包括:输入音频数据,并对获取的音频数据进行编码表征,生成多任务模型,从音频表征中获取特定的文本、情感、语种信息;对音频转换的文本进行约束并添加相应的描述,形成结构化输入,送到基于文本的大规模预训练语言模型中,用以生成符合预期的返回文本;将返回的文本与情感、语种信息输入到语音合成模块中得到音频输出;利用音频表征编码器对生成的音频数据进行表征编码,用以生成基于表征的大规模表征模型的训练目标,输出目标表征;将输入音频的音频表征输入至大规模音频表征语言模型中,得到模型输出的音频表征;使用老师
‑
学生学习方法,利用大规模音频表征语言模型输出与目标表征作使用一致性损失函数训练大规模音频表征语言模型;使用表征解码器,将大规模音频表征语言模型输出的音频表征解码为时域音频输出。5.根据权利要求4所述的一种基于大规模音频表征语言模型的音频理解与生成方法,其特征在于:训练多任务模型,包括基于卷积神经网络层、Conformer网络、时间注意力池化层、线性
输出层结合的多任务模型:其中文字识别使用连接时序分类损失函数,语种识别使用交叉熵损失函数,情感识别使用交叉熵损失函数;在多任务学习中,情感识别和语种识别时针对一个完整的发音单元以及结合音频的上下文信息给出语种和情感的判断,情感和语种识别包含分段时间注意力池化层,具体如下:定义Conformer的输出为H=[h1,h2,...,h
T
]∈R
...
【专利技术属性】
技术研发人员:卢佳欣,朱阳燕,陈枢茜,王君,
申请(专利权)人:南通理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。