基于语音数据检索增强技术的障碍语音识别和重构方法技术

技术编号：43854492 阅读：26 留言：0更新日期：2024-12-31 18:45

本发明专利技术公开一种基于语音数据检索增强技术的障碍语音识别和重构方法。该方法包括：将待识别障碍语音切分为多个片段；对于每一片段，通过检索障碍语音数据库，得到多个相似语音片段以及对应的文本内容；对于相似语音片段和待识别障碍语音，分别进行编码，得到相似语音编码和待识别障碍语音编码；将相似语音编码和待识别障碍语音编码分别转换为大语言模型理解的第一编码和第二编码；将第一编码和第二编码输入大语言模型，并利用设定的提示词，获得所述待识别障碍语音对应的文本信息，其中提示词包含待识别障碍语音的历史对话内容及相似语音片段对应的文本内容；对于识别出的文本信息进行语音重构。本发明专利技术能够提高障碍语音识别的精准性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息，更具体地，涉及一种基于语音数据检索增强技术的障碍语音识别和重构方法。

技术介绍

1、构音障碍(dysarthria)是指由于神经病变，与言语有关的肌肉麻痹、收缩力减弱或运动不协调所导致的言语障碍。构音障碍患者的发音一般断断续续，模糊不清，很难与他人交流。近年来，随着深度学习的发展，语音识别(asr)技术出现了很大进展，但针对构音障碍患者的障碍语音识别依旧是一项具有挑战性的工作。为了更好地识别障碍语音，研究者们在语音识别的基础上，结合障碍语音的特点进行方法设计，提高模型性能。例如，使用人工神经网络(ann)分析asr对构音障碍言语的实验结果。又如，使用隐马尔可夫模型(hmm)设计构音障碍语音的asr，并比较了快速傅里叶变换、线性预测和倒谱系数等不同声学特征的结果。由于设备计算能力的限制，这些研究并没有取得特别显著的成果。随着采用深度学习方法的asr技术的发展和计算能力的大幅提高，人们开展了大量研究来提高asr对构音障碍语音的性能。例如，takashima等提出了一个端到端的asr框架，该框架共同封装了声学和语言模型，框架的声学模型部分在构音障碍的说话者之间共享，并且该框架的语言模型部分分配给每种语言，而不考虑构音障碍。

2、大语言模型(llm)是人工智能领域一种高度复杂和强大的机器学习模型，它专门设计用来理解和生成人类语言。这些模型通过在大量文本数据上进行训练，学习语言的模式、语法、语义以及上下文关系。现阶段的大语言模型如chat gpt、文心一言、通义千问、kimi等，已经能够做到遵循较长的人类语

3、大模型检索增强技术(retrieval-augmented generation，简称rag)是一种结合了信息检索和大型语言模型(llm)生成能力的技术。它通过从数据存储中检索相关内容来增强人工智能生成内容的结果，提高准确性和鲁棒性。rag技术特别适合处理需要特定领域知识的任务，能够有效避免大模型的幻觉问题，提供权威性的知识，并确保数据安全。

4、语音生成技术(tts)是一种将文本转换为语音的技术，它使得计算机能够模拟人类的语音。tts技术在人机交互中扮演着重要的角色，广泛应用于智能助手、智能客服、有声读物、呼叫中心和车载娱乐设备等领域。tts技术的发展经历了从早期的机械式语音合成到现在的自然语言处理和深度学习技术的应用。现代的tts系统不仅关注声音的自然度和流畅性，还致力于个性化和情感化，以提供更加丰富和真实的交互体验。

5、在现有技术中，专利申请cn202211156788.6公开了一种特征增强的构音障碍语音处理方法。该方法包括以下步骤：s1、对原始信号进行快速傅里叶变换，计算得到其频谱信号；s2、对频谱信号进行经验模态分解，得到各个本征模式分解分量；s3、计算前m个本征模式分解分量的功率谱密度，得到功率谱特征向量；s4、对前m个本征模式分解分量分别进行快速沃尔什-哈达玛变换得到沃尔什变换系数，然后提取各个沃尔什变换系数的统计学特征，得到统计学特征向量；s5、将所述功率谱特征向量和统计学特征向量组合，得到组合特征向量。该方案提高了构音障碍语音识别的准确率。专利申请cn202110512052.7公开了基于视觉面部轮廓运动的构音障碍语音识别方法及系统。该系统包括多模态数据获取、多模态融合特征计算、多模态语音识别计算和语言模型计算模块；多模态数据获取算模块用于获取构音障碍者的面部轮廓运动视频数据和与视频同步的语音数据；多模态融合特征计算模块用于融合面部轮廓运动特征和语音声学特征；多模态语音识别计算模块用于获得由多模态特征到音素字符的映射关系；语言模型计算模块用于获得由音素字符到中文句子的映射关系。该方案通过融合语音声学特征参数与构音障碍者的发音动作得到融合后的多模态特征，利用融合后的多模态特征进行构音障碍语音识别，由此有效地提升构音障碍语音识别准确度。

6、经分析，现有的语音识别方案主要存在以下缺陷：

7、1)现有的语音识别技术，不能通过检索语音数据库内容用于参考，因而准确率偏低，同时传统的障碍语音识别方法大多使用n-gram语言模型，不能综合大长度上下文进行识别。

8、2)现有基于大语言模型的语音识别方法难以应用在障碍语音上。由于障碍语音的模糊性，其发音很难直接与大语言模型的输入文本建立对应关系，因而必须将语音转换为大模型可以理解的编码内容。

技术实现思路

1、本专利技术的目的是克服上述现有技术的缺陷，提供一种基于语音数据检索增强技术的障碍语音识别和重构方法。该方法包括以下步骤：

2、基于障碍语音数据库中数据的长度，将待识别障碍语音切分为多个片段；

3、对于所述多个片段中的每一片段，利用第一语音编码器进行编码，并通过检索障碍语音数据库，得到多个相似语音片段以及对应的文本内容；

4、对于所述多个相似语音片段和所述待识别障碍语音，分别使用相同的第二语音编码器进行编码，得到对应的相似语音编码和待识别障碍语音编码；

5、利用经训练的语音编码转换器，将所述相似语音编码和待识别障碍语音编码分别转换为大语言模型理解的第一编码和第二编码；

6、将第一编码和第二编码输入到大语言模型，并利用设定的提示词，获得所述待识别障碍语音对应的文本信息，其中所述提示词包含所述待识别障碍语音的历史对话内容及所述多个相似语音片段对应的文本内容；

7、对于所识别出的文本信息，利用语音合成技术进行语音重构。

8、与现有技术相比，本专利技术的优点在于，针对障碍语音数据相对不足、障碍语音跟正常语音差异较大以及现有语音识别方案难以利用对话历史信息等问题，本专利技术所提出的基于语音数据检索增强技术的障碍语音识别和重构方法，利用大量数据得到的预训练大语言模型弥补障碍语音数据不足的问题，并使用历史对话内容对大模型进行提示学习，最后通过上下文学习能力和增强检索技术有针对性地对障碍语音进行识别，进而在准确识别结果上利用现有的语音合成技术(tts)生成正确的语音。本专利技术降低了语音差异对识别结果的影响，提高了识别准确率，能够将障碍语音转化为易于理解的文字以及正常语音，有利于构音障碍者与外界进行正常交流。

9、通过以下参照附图对本专利技术的示例性实施例的详细描述，本专利技术的其它特征及其优点将会变得清楚。

本文档来自技高网...

【技术保护点】

1.一种基于语音数据检索增强技术的障碍语音识别和重构方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，根据以下步骤将待识别障碍语音切分为多个片段：

3.根据权利要求1所述的方法，其特征在于，第一语音编码器和第二语音编码器是相同或不同类型的编码器。

4.根据权利要求3所述的方法，其特征在于，第一语音编码器和第二语音编码器选自HuBERT编码器、Whisper编码器或Wav2Vec编码器。

5.根据权利要求1所述的方法，其特征在于，所述多个相似语音片段之间的相似性基于余弦相似度或欧氏距离进行度量。

6.根据权利要求1所述的方法，其特征在于，所述语音合成技术是VITS语音合成模型。

7.根据权利要求1所述的方法，其特征在于，所述语音编码转换器是多层神经网络。

8.根据权利要求1所述的方法，其特征在于，所述语音编码转换器采用正常语音数据进行训练，用于将语音内容转换为文本内容。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于语音数据检索增强技术的障碍语音识别和重构方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，根据以下步骤将待识别障碍语音切分为多个片段：

3.根据权利要求1所述的方法，其特征在于，第一语音编码器和第二语音编码器是相同或不同类型的编码器。

4.根据权利要求3所述的方法，其特征在于，第一语音编码器和第二语音编码器选自hubert编码器、whisper编码器或wav2vec编码器。

5.根据权利要求1所述的方法，其特征在于，所述多个相似语音片段之间的相似性基于余弦相似度或欧氏距离进行度量。

6.根据权利要求1所述的方法，其特...

【专利技术属性】
技术研发人员：陈易翔，谢旭荣，苏荣锋，燕楠，王岚，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人