一种基于大语言模型的多模态口语发音评测方法技术

技术编号：43686040 阅读：12 留言：0更新日期：2024-12-18 21:05

本发明专利技术提供了一种基于大语言模型的多模态口语发音评测方法，属于口语评测技术领域，包括：获取口语测试者的音频数据；通过声学编码器对音频数据进行特征编码处理，获取音频表征信息，并通过模态适应层将获取的音频表征信息映射到公共空间中；设置音频评估指令，通过分词器将音频评估指令分离为若干词组，并通过词嵌入模块将词组转换为高维文本特征，映射到公共空间中；将公共空间中的音频表征信息与高维文本特征拼接，进行多模态特征合并，构建评测序列；大语言模型通过对评测序列进行评估预测，获取相应的发音准确度评测结果和流利度评测结果。上述方法无需依赖自动语音识别系统，在简化评测过程的同时，极大地提高了对音频数据的评测效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及口语评测，特别涉及一种基于大语言模型的多模态口语发音评测方法。

技术介绍

1、口语作为学习外语的重要一环，流利且准确的口语发音可以有效的提高信息的沟通和交流。

2、传统技术中，对于口语发音的评测是基于自动语音识别系统来实现，自动语音识别系统根据口语测试者的语音数据和发音文本基于时间序列进行强制对齐来获取特征信息，并构建音素级别的打分网络，实现对口语测试者的发音评测。上述方法严重依赖于自动语音识别系统，并且基于音素级别的评测导致评测过程缓慢，获取评测结果的步骤繁琐。

3、因此，提出一种基于大语言模型的多模态口语发音评测方法。

技术实现思路

1、为解决上述技术问题，本专利技术提供一种基于大语言模型的多模态口语发音评测方法，用以解决传统技术中口语评测过程缓慢、步骤繁琐的问题。

2、本专利技术实施例中提供了一种基于大语言模型的多模态口语发音评测方法，包括：

3、获取口语测试者的音频数据；

4、通过声学编码器对所述音频数据进行特征编码处理，获取音频表征信息，并通过模态适应层将获取的所述音频表征信息映射到公共空间中；

5、设置音频评估指令，通过分词器将所述音频评估指令分离为若干词组，并通过词嵌入模块将词组转换为高维文本特征，映射到公共空间中；

6、将公共空间中的音频表征信息与所述高维文本特征拼接，进行多模态特征合并，构建评测序列；

7、大语言模型通过对所述评测序列进行评估预测，获取相应

8、优选的，本专利技术实施例提供一种基于大语言模型的多模态口语发音评测方法，所述步骤：获取口语测试者的音频数据；包括：

9、获取原始音频信号；

10、通过预加重滤波器对原始音频信号中的高频部分进行预加重处理，获取预加重音频信号；通过预设采样点的时长作为分帧帧长，对所述预加重音频信号进行分帧处理，并采用窗函数对每个语音帧信号进行加窗处理，获取预处理音频信号；

11、计算所述预处理音频信号中语音帧信号的短时能量值，构建所述预处理音频信号对应的能量值序列；

12、

13、其中，et为预处理音频信号中t时刻语音帧信号s(t)的短时能量值，s(t+d)为语音帧信号s(t)的帧长偏移信号，d为帧长变量，l为语音帧的帧长，ω(d)为语音帧信号的s(t)对应的窗函数；

14、根据所述能量值序列分别设置第一判决阈值和第二判决阈值，基于所述能量值序列对所述预处理音频信号进行语音端点检测，获取音频数据；可选地，包括：

15、在所述短时能量值低于所述第一判决阈值时，将所述短时能量值对应的所述语音帧信号标记为静音点；在所述短时能量值高于所述第一判决阈值，且低于所述第二判决阈值时，将所述短时能量值对应的所述语音帧信号标记为过渡点；在所述短时能量值高于所述第二判决阈值，则将所述短时能量值对应的所述语音帧信号标记为语音点；

16、根据语音帧信号的标记信息进行分析，检测所述语音点和所述过渡点的持续时间，在所述持续时间小于语音最短时间时，将所述语音帧信号识别为噪声；在所述持续时间大于语音最短时间时，将所述语音帧信号识别为有效语音；

17、将所述预处理音频信号中的噪声和所述静音点对应的语音帧信号筛除，获取音频数据。

18、优选的，本专利技术实施例提供一种基于大语言模型的多模态口语发音评测方法，所述步骤：通过声学编码器对所述音频数据进行特征编码处理，获取音频表征信息；并通过模态适应层将获取的所述音频表征信息映射到公共空间中；包括：

19、构建初始声学编码器，通过自动语音识别数据集对所述初始声学编码器进行训练，获取声学编码器；

20、通过声学编码器对所述音频数据的全局关联特征和隐藏特征进行分析，获取音频表征信息；

21、构建初始模态适应层，通过自动语音识别数据集对所述初始模态适应层进行训练，获取模态适应层；

22、通过模态适应层，分析所述音频表征信息中向量的模态特征，并通过相应的模态特征提取器将所述音频表征信息中的深度音频特征向量、隐藏音频特征向量和高维特征向量映射到公共空间中。

23、优选的，本专利技术实施例提供一种基于大语言模型的多模态口语发音评测方法，所述步骤：构建初始模态适应层，通过自动语音识别数据集对所述初始模态适应层进行训练，获取模态适应层；包括：

24、获取自动语音识别数据集中样本语音数据对应的样本表征信息；

25、通过初始模态适应层对所述样本表征信息进行模态识别，并通过模态特征提取器进行处理，获取样本映射信息；

26、通过交叉熵函数评估所述模态特征提取器的映射损失；

27、

28、其中，为模态m的模态特征提取器的映射损失函数，lv为第v个样本表征信息xv对应的样本标签，softmax()为归一化指数函数，tm为模态m的模态特征提取器，v为自动语音识别数据集中样本表征信息的样本数量；

29、分析所述样本映射信息与所述样本表征信息对应的标准映射信息的相似度，评估所述模态特征提取器的学习损失；

30、

31、其中，为模态m的模态特征提取器的学习损失函数，tm(xv)为模态特征提取器tm对样本表征信息xv进行处理的样本映射信息，为样本表征信息xv对应的标准映射信息，θ为比例因子，|| ||2为2-范数；

32、根据所述模态特征提取器的映射损失和学习损失，构建综合损失函数；根据自动语音识别数据集对所述综合损失函数进行优化，获取模态适应层。

33、优选的，本专利技术实施例提供一种基于大语言模型的多模态口语发音评测方法，所述步骤：大语言模型通过对所述评测序列进行评估预测，获取相应的发音准确度评测结果和流利度评测结果，包括：

34、获取口语评分数据集；

35、按照预设比例，将所述口语评分数据集划分为口语评分训练集和口语评分测试集；

36、构建初始大语言模型；

37、通过口语评分训练集对初始大语言模型进行训练，优化所述初始大语言模型的控制参数，并通过测试集对所述初始大语言模型的评测准确性进行分析，在满足预设评测准确度时，获取大语言模型；

38、大语言模型通过读取所述评测序列中的高维文本特征，获取评估任务，对所述评测序列进行评估预测，获取发音准确度评测结果和流利度评测结果。

39、优选的，本专利技术实施例提供一种基于大语言模型的多模态口语发音评测方法，所述步骤：通过口语评分训练集对初始大语言模型进行训练，优化所述初始大语言模型的控制参数，并通过测试集对所述初始大语言模型的评测准确性进行分析，在满足预设评测准确度时，获取大语言模型；包括：

40、获取口语评分训练集中的口语训练样本和对应的标准评测结果；

41、初始大语言模型根据所述口语训练样本进行随机掩码操作，将所述口语训本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的多模态口语发音评测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大语言模型的多模态口语发音评测方法，其特征在于，所述步骤：获取口语测试者的音频数据；包括：

3.根据权利要求1所述的一种基于大语言模型的多模态口语发音评测方法，其特征在于，所述步骤：通过声学编码器对所述音频数据进行特征编码处理，获取音频表征信息；并通过模态适应层将获取的所述音频表征信息映射到公共空间中；包括：

4.根据权利要求3所述的一种基于大语言模型的多模态口语发音评测方法，其特征在于，所述步骤：构建初始模态适应层，通过自动语音识别数据集对所述初始模态适应层进行训练，获取模态适应层；包括：

5.根据权利要求1所述的一种基于大语言模型的多模态口语发音评测方法，其特征在于，所述步骤：大语言模型通过对所述评测序列进行评估预测，获取相应的发音准确度评测结果和流利度评测结果，包括：

6.根据权利要求5所述的一种基于大语言模型的多模态口语发音评测方法，其特征在于，所述步骤：通过口语评分训练集对初始大语言模型进行训练，优化所述初始大语

7.根据权利要求6所述的一种基于大语言模型的多模态口语发音评测方法，其特征在于，包括：

...

【技术特征摘要】

1.一种基于大语言模型的多模态口语发音评测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大语言模型的多模态口语发音评测方法，其特征在于，所述步骤：获取口语测试者的音频数据；包括：

4.根据权利要求3所述的一种基于大语言模型的多模态口语发音评测方法，其特征在于，所述步骤：构建初始模态适应层，通过自动语音识别数据集对所述初始模态适应层进行训...

【专利技术属性】
技术研发人员：付凯奇，杨帆，周舒然，
申请(专利权)人：北京百舸飞驰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人