用于识别语音的方法和电子装置制造方法及图纸

技术编号：31371677 阅读：29 留言：0更新日期：2021-12-15 10:11

公开了一种用于识别语音的方法和电子装置。所述方法包括：接收输入序列；根据基于注意力的序列到序列模型确定与输入序列对应的输出序列；从基于注意力的序列到序列模型的多个注意力头之中选择目标注意力头；基于目标注意力头检测构成输出序列的输出词法单元之中的至少一个错误输出词法单元；基于所述至少一个错误输出词法单元校正输出序列；和输出校正后的输出序列。的输出序列。的输出序列。

全部详细技术资料下载

【技术实现步骤摘要】
用于识别语音的方法和电子装置
[0001]本申请要求于2020年5月25日在韩国知识产权局提交的第10
‑
2020
‑
0062450号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

[0002]下面的描述涉及用于识别语音的方法和电子装置。

技术介绍

[0003]在语音识别技术中，为了解决响应于未确定长度的序列的输入语音而生成未确定长度的输出的问题，编码器
‑
解码器人工神经网络模型(序列到序列模型之一)已经被引入。然而，随着输入语音的长度增加，语音识别的准确性可能降低。

技术实现思路

[0004]提供本
技术实现思路
以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意在确定要求保护的主题的关键特征或必要特征，也不意在用于帮助确定要求保护的主题的范围。
[0005]在一个总体方面，一种用于识别语音的方法包括：接收输入序列；根据基于注意力的序列到序列模型确定与输入序列对应的输出序列；从基于注意力的序列到序列模型的多个注意力头之中选择目标注意力头；基于目标注意力头检测构成输出序列的输出词法单元之中的至少一个错误输出词法单元；基于所述至少一个错误输出词法单元校正输出序列；和输出校正后的输出序列。
[0006]在一个总体方面，一种用于识别语音的电子装置包括：处理器，被配置为：接收输入序列，根据基于注意力的序列到序列模型确定与输入序列对应的输出序列，从基于注意力的序列到序列模型的多个注...

【技术保护点】

【技术特征摘要】
1.一种用于识别语音的方法，所述方法包括：接收输入序列；根据基于注意力的序列到序列模型确定与输入序列对应的输出序列；从基于注意力的序列到序列模型的多个注意力头之中选择目标注意力头；基于目标注意力头检测构成输出序列的输出词法单元之中的至少一个错误输出词法单元；基于所述至少一个错误输出词法单元校正输出序列；和输出校正后的输出序列。2.根据权利要求1所述的方法，其中，选择的步骤包括：选择生成预定注意力权重矩阵的注意力头作为目标注意力头，预定注意力权重矩阵被训练为与目标注意力头对应的目标注意力权重矩阵。3.根据权利要求2所述的方法，其中，基于具有预定形状的引导权重矩阵来训练预定注意力权重矩阵。4.根据权利要求3所述的方法，其中，基于输出序列长度、输入帧长度、开始移位、结束移位和扩散率中的一个或多个来确定引导权重矩阵。5.根据权利要求2所述的方法，其中，预定注意力权重矩阵被训练为针对每个步具有不同的注意力权重分布。6.根据权利要求2所述的方法，其中，预定注意力权重矩阵被训练为基于先前步的注意力权重的累积和来确定当前步的注意力权重。7.根据权利要求1所述的方法，其中，选择的步骤包括：选择生成最适合于预定目的的注意力权重矩阵的注意力头作为目标注意力头。8.根据权利要求1所述的方法，其中，选择的步骤包括：基于具有根据预定目的的预定形状的引导权重矩阵来选择目标注意力头。9.根据权利要求1所述的方法，其中，选择的步骤包括：响应于基于注意力的序列到序列模型具有单调性，通过对由所述多个注意力头生成的多个注意力权重矩阵执行单调回归分析来选择目标注意力头。10.根据权利要求1所述的方法，其中，选择的步骤包括：基于由所述多个注意力头生成的多个注意力权重矩阵的熵来选择目标注意力头。11.根据权利要求10所述的方法，其中，基于熵选择目标注意力头的步骤包括：选择生成所述多个注意力权重矩阵之中的具有最大熵的注意力权重矩阵的注意力头作为目标注意力头。12.根据权利要求10所述的方法，其中，基于熵选择目标注意力头的步骤包括：基于Kullback
‑
Leibler散度选择目标注意力头。13.根据权利要求1所述的方法，其中，选择的步骤包括：选择生成在注意力权重矩阵中的行的分布之间具有最大距离的注意力权重矩阵的注意力头作为目标注意力头。14.根据权利要求1至13中的任意一项所述的方法，其中，检测的步骤包括：在目标注意力头的输入序列与输出序列之间的注意力权重之中检测与引导权重矩阵的注意力权重的差大于或等于阈值的注意力权重作为至少一个错误注意力权重；并且将与所述至少一个错误注意力权重对应的输出词法单元确定为所述至少一个错误输
出词法单元。15.根据权利要求1至13中的任意一项所述的方法，其中，检测的步骤包括：在目标注意力头的输入序列与输出序列之间的注意力权重之中检测与前一步的注意力权重的相似度大于或等于阈值的至少一个错误注意力权重；并且将与所述至少一个错误注意力权重对应的输出词法单元确定为所述至少一个错误输出词法单元。16.根据权利要求1至13中的任意一项所述的方法，其中，校正的步骤包括：从输出序列排除所述至少一个错误输出词法单元。17.根据权利要求1至13中的任意一项所述的方法，其中，校正的步骤包括：在除了所述至少一个错误输出词法单元之外的其他输出词法单元候选之中确定下一输入词法单元。18.根据权利要求17所述的方法，还包括：将所述至少一个错误输出词法单元被输出的步的输入词法单元确定为下一输入词法单元。19.根据权利要求1至13中的任意一项所述的方法，其中，注意力头的数量对应于基于注意力的序列到序列模型中的注意力层的数量与解码器层的数量的乘积。20.一种存储指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时，使得处理器执行权利要求1至19中的任意一项所述的方法。21.一种用于识别语音的电子装置，所述电子装置包括：处理器，被配置为：接收输入序列，根据基于注意力的序列到序列模型确定与输入序列对应的输出序列，从基于注意力的序列到序列模型的多个注意力头之中选择目标注意力头，基于目标注意力头检测构成输出序列的输出词法单元之中的...

【专利技术属性】
技术研发人员：李敏重，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人