一种基于小粒度口语发音评价系统技术方案

技术编号：28747980 阅读：11 留言：0更新日期：2021-06-06 19:07

本发明专利技术提供一种基于小粒度口语发音评价系统，包括前端产品和语音测评服务器，二者进行双向通信；所述前端产品搭载于用户的智能终端；所述语音测评服务器包括语音测评引擎和语音评测模型；所述语音测评引擎通过测评接口获取用户依据目标文本做出朗读音频，并通过后台配置系统获取目标文本的分词及音标标注结果，同时调用语音识别系统对口语朗读音频进行音素解码及音素对齐；所述语音评测模型最终根据所述音素解码结果及音素对齐结果给出发音评价结果。本发明专利技术主要利用语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果，对用户的朗读语音支持从句子、单词、段落、假名、音素等多个级别进行测评。音素等多个级别进行测评。音素等多个级别进行测评。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于小粒度口语发音评价系统

[0001]本专利技术涉及语音识别及评价
，具体而言，尤其涉及一种基于小粒度口语发音评价系统和方法。

技术介绍

[0002]近几年来，随着人工智能技术的快速发展，越来越多的带有人工智能技术的产品出现在人们的日常生活中。如语音识别、语音合成和声纹识别等技术应用越来越广泛，而这些技术的大都会使用到音素对齐技术。
[0003]在语言教学领域，尤其是现在蓬勃发展的在线口语语音质量评价领域，由于无法在小发音单元的粒度上进行发音质量评价，导致评价系统的评价结果容易受到发音人的个人发音特点的影响，比如：如果发音人性别、年龄以及母语类型等。
[0004]现有的语音质量一般通过提取语音特征进行模式比对，从而获取发音评价结果，而如何能够在更小的粒度上获得更加精确的语音特征，进而提高系统评价的准确性，是一个亟待解决的问题。

技术实现思路

[0005]根据上述提出的现有系统缺乏基于小粒度发音单元的语音评价系统的技术问题，而提供一种基于小粒度口语发音评价系统和方法。本专利技术主要利用语音识别系统获得音素级别的解码结果以及单词和音素级别的强制对齐结果。对用户的朗读，支持从句子、单词、段落、假名、音素等多个级别进行测评。
[0006]本专利技术采用的技术手段如下：
[0007]一种基于小粒度口语发音评价系统，包括前端产品和语音测评服务器，二者进行双向通信；
[0008]所述前端产品搭载于用户的智能终端，一方面用于采集用户的口语朗读音频，另一方面用于向用户...

【技术保护点】

【技术特征摘要】
1.一种基于小粒度口语发音评价系统，其特征在于，包括前端产品和语音测评服务器，二者进行双向通信；所述前端产品搭载于用户的智能终端，一方面用于采集用户的口语朗读音频，另一方面用于向用户展示发音评价结果；所述语音测评服务器用于接收和处理所述口语朗读音频，其主要包括语音测评引擎和语音评测模型；所述语音测评引擎通过测评接口获取用户依据目标文本做出朗读音频，并通过后台配置系统获取目标文本的分词及音标标注结果，同时调用语音识别系统对口语朗读音频进行音素解码及音素对齐；所述语音评测模型最终根据所述音素解码结果及音素对齐结果给出发音评价结果。2.根据权利要求1所述的基于小粒度口语发音评价系统，其特征在于，所述语音评测模型包括音素准确度评价模块，所述音素准确度评价模块根据以下公式计算音素准确度得分：cost_per_frame
align
＝
‑
log(P(f|q
i
))其中，S
i
为音素发音准确度得分，NF(o)为口语朗读音频包含的语音帧数量，f
is
为起始帧号，f
ie
为终止帧号，P(f|q
i
)的含义是给定音素q
i
，在该帧发音为f的对数似然函数值，的含义是对所有音素，在音频帧f的对数似然函数值中，最大的一个值。3.根据权利要求2所述的基于小粒度口语发音评价系统，其特征在于，所述音素准确度评价模块根据以下公式将计算得到的音素准确度得分映射为[0，100]区间范围内的整数：其中，(x
i
，y
i
)为预先定义好的一系列分数映射关系i＝1，2，...，n，且y1＝100，y
n
＝0。4.根据权利要求2所述的基于小粒度口语发音评价系统，其特征在于，所述语音评测模型还包括音素准确度优化模块，所述音...

【专利技术属性】
技术研发人员：杨海斌，徐敏，
申请(专利权)人：早道大连教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人