一种基于小粒度口语发音评价系统技术方案

技术编号:28747980 阅读:11 留言:0更新日期:2021-06-06 19:07
本发明专利技术提供一种基于小粒度口语发音评价系统,包括前端产品和语音测评服务器,二者进行双向通信;所述前端产品搭载于用户的智能终端;所述语音测评服务器包括语音测评引擎和语音评测模型;所述语音测评引擎通过测评接口获取用户依据目标文本做出朗读音频,并通过后台配置系统获取目标文本的分词及音标标注结果,同时调用语音识别系统对口语朗读音频进行音素解码及音素对齐;所述语音评测模型最终根据所述音素解码结果及音素对齐结果给出发音评价结果。本发明专利技术主要利用语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果,对用户的朗读语音支持从句子、单词、段落、假名、音素等多个级别进行测评。音素等多个级别进行测评。音素等多个级别进行测评。

【技术实现步骤摘要】
一种基于小粒度口语发音评价系统


[0001]本专利技术涉及语音识别及评价
,具体而言,尤其涉及一种基于小粒度口语发音评价系统和方法。

技术介绍

[0002]近几年来,随着人工智能技术的快速发展,越来越多的带有人工智能技术的产品出现在人们的日常生活中。如语音识别、语音合成和声纹识别等技术应用越来越广泛,而这些技术的大都会使用到音素对齐技术。
[0003]在语言教学领域,尤其是现在蓬勃发展的在线口语语音质量评价领域,由于无法在小发音单元的粒度上进行发音质量评价,导致评价系统的评价结果容易受到发音人的个人发音特点的影响,比如:如果发音人性别、年龄以及母语类型等。
[0004]现有的语音质量一般通过提取语音特征进行模式比对,从而获取发音评价结果,而如何能够在更小的粒度上获得更加精确的语音特征,进而提高系统评价的准确性,是一个亟待解决的问题。

技术实现思路

[0005]根据上述提出的现有系统缺乏基于小粒度发音单元的语音评价系统的技术问题,而提供一种基于小粒度口语发音评价系统和方法。本专利技术主要利用语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果。对用户的朗读,支持从句子、单词、段落、假名、音素等多个级别进行测评。
[0006]本专利技术采用的技术手段如下:
[0007]一种基于小粒度口语发音评价系统,包括前端产品和语音测评服务器,二者进行双向通信;
[0008]所述前端产品搭载于用户的智能终端,一方面用于采集用户的口语朗读音频,另一方面用于向用户展示发音评价结果;
[0009]所述语音测评服务器用于接收和处理所述口语朗读音频,其主要包括语音测评引擎和语音评测模型;
[0010]所述语音测评引擎通过测评接口获取用户依据目标文本做出朗读音频,并通过后台配置系统获取目标文本的分词及音标标注结果,同时调用语音识别系统对口语朗读音频进行音素解码及音素对齐;
[0011]所述语音评测模型最终根据所述音素解码结果及音素对齐结果给出发音评价结果。
[0012]进一步地,所述语音评测模型包括音素准确度评价模块,所述音素准确度评价模块根据以下公式计算音素准确度得分:
[0013][0014]cost_per_frame
align


log(P(f|q
i
))
[0015][0016]其中,S
i
为音素发音准确度得分,NF(o)为口语朗读音频包含的语音帧数量,f
is
为起始帧号,f
ie
为终止帧号,
[0017]P(f|q
i
)的含义是给定音素q
i
,在该帧发音为f的对数似然函数值,
[0018]的含义是对所有音素,在音频帧f的对数似然函数值中,最大的一个值。
[0019]进一步地,所述音素准确度评价模块根据以下公式将计算得到的音素准确度得分映射为[0,100]区间范围内的整数:
[0020][0021]其中,(x
i
,y
i
)为预先定义好的一系列分数映射关系i=1,2,

,n,且y1=100,y
n
=0。
[0022]进一步地,所述语音评测模型还包括音素准确度优化模块,所述音素准确度优化模块根据以下步骤优化音素准确度得分:
[0023]获取教师针对朗读音频给出的主观评分;
[0024]将计算得到的音素准确度得分作为样本值、将教师给出的主观评分作为标签值,采用有监督回归问题的机器学习方案优化评分系统的参数。
[0025]进一步地,所述调用语音识别系统对口语朗读音频进行音素解码,包括:
[0026]获取发音词典;
[0027]将所述口语朗读音频、目标文本以及发音词典输入语音识别系统;
[0028]所述语音识别系统通过维特比算法将口语朗读音频识别为若干音素状态;
[0029]将每三个音素状态组合成一个音素,得到音素解码结果。
[0030]进一步地,所述调用语音识别系统对口语朗读音频进行音素对齐,包括:
[0031]获取发音词典;
[0032]将所述口语朗读音频、目标文本以及发音词典输入语音识别系统;
[0033]将所述目标文本与发音词典对照,生成与所述目标文本想对应的音素序列;
[0034]将所述音素序列中的每个音素分解为三个音素状态,从而构建目标语音数据的状态转移图;
[0035]通过维特比算法对所述状态转移图进行处理从而得到与所述目标文本对应的各
个音素在音频文件中的起止位置。
[0036]进一步地,所述语音测评引擎还包括预处理模块,其用于在将口语朗读音频输入语音识别系统之前,对口语朗读音频进行预处理,包括:
[0037]按照设定的采样周期对所述朗读音频进行采样,从而生成声音采样数组;
[0038]由所述声音采样数组的起始端依次判断每一个采样的音强特征是否大于预设的采样最低阈值,若是则对该采样值之前的音频数据进行剪切处理;
[0039]同时由所述声音采样数组的末端依次向前判断每一个采样的音强特征是否大于预设的采样最低阈值,若是则对该采样值之后的音频数据进行剪切处理;
[0040]按帧对剪切处理后的声音采样数组进行特征提取,从而得到声音特征序列。
[0041]进一步地,所述语音识别系统为DNN

HMM混合语音识别系统。
[0042]较现有技术相比,本专利技术具有以下优点:
[0043]本专利技术通过网络接收由移动客户端采集用户根据给定的口语文本的朗读语音,对朗读语音进行基于音素的小粒度准确度评价,克服了评价结果容易受到发音人的个人发音特点的影响问题。本专利技术能够将评价结果通过网络反馈给所述移动客户端,并通过所述移动客户端对所述评价结果进行显示。
[0044]基于上述理由本专利技术可在语言学习等领域广泛推广。
附图说明
[0045]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0046]图1为本专利技术基于小粒度口语发音评价系统结构示意图。
[0047]图2为本专利技术语音评测引擎功能流程图。
[0048]图3为本专利技术语音评测引擎进行语音识别的框架图。
具体实施方式
[0049]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小粒度口语发音评价系统,其特征在于,包括前端产品和语音测评服务器,二者进行双向通信;所述前端产品搭载于用户的智能终端,一方面用于采集用户的口语朗读音频,另一方面用于向用户展示发音评价结果;所述语音测评服务器用于接收和处理所述口语朗读音频,其主要包括语音测评引擎和语音评测模型;所述语音测评引擎通过测评接口获取用户依据目标文本做出朗读音频,并通过后台配置系统获取目标文本的分词及音标标注结果,同时调用语音识别系统对口语朗读音频进行音素解码及音素对齐;所述语音评测模型最终根据所述音素解码结果及音素对齐结果给出发音评价结果。2.根据权利要求1所述的基于小粒度口语发音评价系统,其特征在于,所述语音评测模型包括音素准确度评价模块,所述音素准确度评价模块根据以下公式计算音素准确度得分:cost_per_frame
align


log(P(f|q
i
))其中,S
i
为音素发音准确度得分,NF(o)为口语朗读音频包含的语音帧数量,f
is
为起始帧号,f
ie
为终止帧号,P(f|q
i
)的含义是给定音素q
i
,在该帧发音为f的对数似然函数值,的含义是对所有音素,在音频帧f的对数似然函数值中,最大的一个值。3.根据权利要求2所述的基于小粒度口语发音评价系统,其特征在于,所述音素准确度评价模块根据以下公式将计算得到的音素准确度得分映射为[0,100]区间范围内的整数:其中,(x
i
,y
i
)为预先定义好的一系列分数映射关系i=1,2,...,n,且y1=100,y
n
=0。4.根据权利要求2所述的基于小粒度口语发音评价系统,其特征在于,所述语音评测模型还包括音素准确度优化模块,所述音...

【专利技术属性】
技术研发人员:杨海斌徐敏
申请(专利权)人:早道大连教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1