一种语音识别阈值设置方法技术

技术编号:31508952 阅读:26 留言:0更新日期:2021-12-22 23:44
一种语音识别阈值设置方法,包括如下步骤:S1.确定识别函数和误识别函数;S2.对识别函数和误识别函数分别计算收益和损失,计算总收益gains,S3.对总收益gains,以置信度为变量进行求导,导数为零时的置信度值为置信度阈值。本发明专利技术通过对识别和误识别的分析,通过最大收益的方法确定每个命令词的最佳置信度阈值,虽然略微降低新闻噪音下的识别率,但大幅降低了误识别率,提升了整体识别体验效果。提升了整体识别体验效果。提升了整体识别体验效果。

【技术实现步骤摘要】
一种语音识别阈值设置方法


[0001]本专利技术属于语音识别
,涉及语音识别阈值设置,具体涉及一种语音识别阈值设置方法。

技术介绍

[0002]随着技术迭代更新,语音识别技术日趋成熟,在实际产品如音响、玩具、家居中控等也得到广泛使用。目前主流的语音识别技术主要是通过深度神经网络学习的方式实现,深度神经网络学习包括训练和识别两个步骤,训练是通过语音到音节概率的计算得到声学模型,识别是根据声学模型和语言模型计算当前语音对应音节到文本的概率,实际应用中,对于语音识别本身而言,只有识别与未识别两种状态,故须将概率转变成二值量。通常的做法是设定一个概率(置信度)阈值,即,当获得的置信度值达到或超过阈值时,表明语音识别成功;反之为不成功。
[0003]阈值的确定通常是一个比较困难的问题,如果阈值设置过大,则会导致识别率下降,如果阈值设置过小,虽不影响识别率,但会增加集外误识别概率,降低识别体验。

技术实现思路

[0004]为克服现有技术存在的技术缺陷,兼顾识别率和误识别,本专利技术提出了一种语音识别阈值设置方法。
[0005]本专利技术所述语音识别阈值设置方法,包括如下步骤:S1.确定识别函数和误识别函数;S2.对识别函数和误识别函数分别计算收益和损失,计算总收益gains,gains= gain
err

loss
err
+gain
rec

loss
rec
其中gain
rec
、loss
rec
、gain
err
、loss
err
分别为识别函数收益、识别函数损失、误识别函数收益、误识别函数损失;S3.对总收益gains,以置信度为变量进行求导,导数为零时的置信度值为置信度阈值。
[0006]优选的,识别函数和误识别函数分别为:rec(x)=

ax2+bx+cerr(x)=

ax2+mx+n其中, x为置信度,rec(x) 为识别次数、err(x) 为误识别次数;a,b,c,m,n为大于零的常数,且b≠m, c≠n;所述置信度阈值t = (n

c)/(b

m)。
[0007]本专利技术通过对识别和误识别的分析,通过最大收益的方法确定每个命令词的最佳置信度阈值,虽然略微降低新闻噪音下的识别率,但大幅降低了误识别率,提升了整体识别体验效果。
附图说明
[0008]图1为本专利技术所述识别函数和误识别函数两条函数曲线的一个典型实例示意图;图1中实线曲线为识别函数,虚线曲线为误识别函数,横坐标为置信度阈值,单位为1%,纵坐标为次数,min,max分别为置信度阈值的区间左右端点。
具体实施方式
[0009]下面对本专利技术的具体实施方式作进一步的详细说明。
[0010]本专利技术所述语音识别阈值设置方法,包括如下步骤:S1.确定识别函数和误识别函数;S2.对识别函数和误识别函数分别计算收益和损失,计算总收益gains,gains= gain
err

loss
err
+gain
rec

loss
rec
其中gain
rec
、loss
rec
、gain
err
、loss
err
分别为识别函数收益、识别函数损失、误识别函数收益、误识别函数损失;S3.对总收益gains,以置信度为变量进行求导,导数为零时的置信度值为置信度阈值。
[0011]根据统计,识别时,纯净的目标词语音信号在送入神经网络得到的概率得分即置信度大部分分布在高分数段;而误识别时,因语音信号中包含与目标词中的一个或多个音节相近的音节,将整体置信度拉高导致误识发生,但误识别的置信度大部分分布在低分数段。
[0012]根据大量命令词的识别和误识别进行统计、拟合数据;一般的识别或误识别的置信度分布呈现如图1中err和rec两条函数曲线所示的规律。其中,实线为识别函数的置信度分布曲线rec,虚线为误识别函数的置信度曲线err。err和rec两函数可近似为如下形式:rec(x)=

ax2+bx+c
ꢀꢀ
(1) err(x)=

ax2+mx+n
ꢀꢀ
(2)其中, x为置信度,rec(x) 为识别次数、err(x) 为误识别次数;其中,a,b,c,m,n为大于零的常数,且b≠m, c≠n。x为置信度,;对于置信度区间内的所有置信度x,rec和err都是大于等于零的,实际中,根据命令词的组合方式不同,rec和err的开口大小和对称轴会不同,所以a,b,c,m,n的取值有所不同,但a,b,c,m,n的取值都是大于零的常数。
[0013]联合式(1)和式(2),即可求得两条曲线的交点x
o
为x
o =(n

c)/(b

m)
ꢀꢀꢀ
(3)为了兼顾识别和误识别,需要确定一个最佳的置信度阈值t,将问题进行简化,即求最大收益对应的置信度阈值t。
[0014]首先,在置信度区间[min,max]中计算识别函数收益gain
rec
和识别函数损失loss
rec

[0015]收益指正确率,相应的损失是失误率。例如置信度阈值设置在0.25时,实测发现识别正确率97%,即收益为97%,损失为3%。
[0016]置信度区间是置信度可能取值的范围,置信度阈值t位于置信度区间内;
(4)(5)其次,计算误识别函数收益gain
err
和误识别函数损失loss
err
(6)(7)最后,由式(1)

(2)式及(4)

(7)式可计算总收益gainsgains=

(

at3/3+bt2/2+ct)+(

at3/3+mt2/2+nt)

(

at3/3+bt2/2+ct)

(

at3/3+mt2/2+nt)+const
ꢀꢀ‑‑‑
(8)其中,gain
rec
、loss
rec
、gain
err
、loss
err
分别为识别函数收益、识别函数损失、误识别函数收益、误识别函数损失;const为常数。
[0017]整理(8)式并对t求导数得到gains

=
ꢀ‑
2(b

m)t+2(n

c)
ꢀꢀ
(9)当导数gains

为零时,总收益gains本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别阈值设置方法,其特征在于,包括如下步骤:S1.确定识别函数和误识别函数;S2.对识别函数和误识别函数分别计算收益和损失,计算总收益gains,gains= gain
err

loss
err
+gain
rec

loss
rec
其中gain
rec
、loss
rec
、gain
err
、loss
err
分别为识别函数收益、识别函数...

【专利技术属性】
技术研发人员:陈思应
申请(专利权)人:成都启英泰伦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1