语音识别方法、装置、处理器、存储器及电子设备制造方法及图纸

技术编号：41436719 阅读：7 留言：0更新日期：2024-05-28 20:31

本发明专利技术公开了一种语音识别方法、装置、处理器、存储介质及电子设备。其中，该方法包括：获取待识别语音的声学特征信息，其中，语音中至少存在两个目标对象的声音；按照至少两个目标对象的声音的播放顺序，依次从声学特征信息中提取目标对象的表述特征，其中，表述特征用于表示目标对象发出声音的方式；基于表述特征以及播放顺序，确定语音对应的初始文本信息；从声学特征信息中检测至少两个目标对象的转变结果，并基于转变结果对初始文本信息进行调整，得到对应的目标文本信息，其中，转变结果用于从声学特征信息中确定出现发出声音的目标对象存在转变的状况。本发明专利技术解决了若语音中至少存在两个目标对象的声音，对语音识别的准确性低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别领域，具体而言，涉及一种语音识别方法、装置、处理器、存储器及电子设备。

技术介绍

1、在相关技术中，若需要对存在多人说话的语音进行识别的时候，仅能通过对语音进行语音分离，然后在进行语音识别的方式，来得到语音对应的文本信息，但是，这个识别过程的复杂度较高，且在多人说话的语音中会存在插抢话的情况，也即，存在多人说话重叠部分，上述方法无法准确处理重叠部分的语音，只会输出重叠部分说话声音较为明显的那一方，因此，仍存在若语音中至少存在两个目标对象的声音，对语音识别效率低的技术问题。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本专利技术实施例提供了一种语音识别方法、装置、处理器、存储器及电子设备，以至少解决若语音中至少存在两个目标对象的声音，对语音识别的准确性低的技术问题。

2、根据本专利技术实施例的一个方面，提供了一种语音识别方法，包括：获取待识别语音的声学特征信息，其中，语音中至少存在两个目标对象的声音；按照至少两个目标对象的声音的播放顺序，依次从声学特征信息中提取目标对象的表述特征，其中，表述特征用于表示目标对象发出声音的方式；基于表述特征以及播放顺序，确定语音对应的初始文本信息；从声学特征信息中检测至少两个目标对象的转变结果，并基于转变结果对初始文本信息进行调整，得到对应的目标文本信息，其中，转变结果用于从声学特征信息中确定出现发出声音的目标对象存在转变的状况。

3、可选地，获取待识别的语音的声学特征信

4、可选地，按照至少两个目标对象的声音的播放顺序，依次从声学特征信息中提取目标对象的表述特征，包括：调用信息提取模型按照播放顺序，依次从声学特征信息中识别至少两个目标对象对应的表述特征。

5、可选地，信息提取模型中包括第一层归一化、自注意机制层和第二层归一化，其中，调用信息提取模型按照播放顺序，依次从声学特征信息中识别至少两个目标对象对应的表述特征，包括：在第一层归一化中，对声学特征信息进行标准化处理，并输入至自注意机制层中；在自注意机制层中，基于标准化处理后的声学特征信息，确定对应的自注意机制数据，并输入至第二层归一化中；在第二层归一化中再进行标准化处理，得到表述特征。

6、可选地，初始文本信息至少包括不同目标对象分别对应的第一文本信息，以及整个声学特征信息对应的第二文本信息。

7、可选地，从声学特征信息中检测至少两个目标对象的转变结果，包括：将初始文本信息和声学特征信息，输入至第二识别模型中，利用第二识别模型，检测出转变结果，其中，第二识别模型用于对声学特征信息至少进行目标对象的转变检测。

8、可选地，第二识别模型中包括检测转变模型，其中，将初始文本信息和声学特征信息，输入至第二识别模型中，利用第二识别模型，检测出转变结果，包括：在转变检测模型中，基于初始文本信息中的第二文本信息和声学特征信息，进行目标对象转变检测；响应于第二文本信息中的目标文本为目标对象转变点，对目标文本进行标记，其中，目标对象转变点用于表示在语音中的声音由一个目标对象转变为另一个目标对象；响应于对第二文本信息中的目标文本标记完成，得到转变结果。

9、可选地，第二识别模型中包括语音识别模型，其中，基于转变结果对初始文本信息进行调整，得到对应的目标文本信息，包括：将转变结果以及初始文本信息输入至语音识别模型中，利用转变结果对初始文本信息进行调整，得到目标文本信息，其中，目标文本信息为区分目标对象的文本信息。

10、可选地，在基于转变结果对初始文本信息进行调整，得到对应的目标文本信息之后，该方法还包括：确定初始文本信息对应的第一损失数据、转变结果对应的第二损失数据以及目标文本信息对应的第三损失数据；对第一损失数据、第二损失数据和第三损失数据进行加权求和，得到在语音识别过程中的整体损失数据。

11、可选地，在对第一损失数据、第二损失数据和第三损失数据进行加权求和，得到在语音识别过程中的整体损失数据之后，该方法还包括：响应于整体损失数据小于损失数据阈值，确定目标文本信息，其中，损失数据阈值用于表征所识别得到的目标文本信息与语音之间的差异程度；响应于整体损失数据大于等于损失数据阈值，对第一损失数据、第二损失数据和/或第三损失数据进行调整。

12、可选地，在基于转变结果对初始文本信息进行调整，得到对应的目标文本信息之后，该方法还包括：确定识别语音得到目标文本信息的使用场景信息，其中，使用场景信息至少包括第一使用场景信息和第二使用场景信息，第一使用场景信息为对目标对象的沟通质量进行监督的场景，第二使用场景信息为对目标对象之间的沟通进行记录的场景；响应于第一使用场景信息，确定进行沟通质量监督的目标对象，从目标文本信息中提取出目标对象的沟通文本，并在交互界面上进行显示和评分；响应于第二使用场景信息，在交互界面上显示标注有目标对象的标识信息的目标文本信息。

13、根据本专利技术实施例的另一方面，还提供了一种语音识别装置，包括：获取单元，用于获取待识别语音的声学特征信息，其中，语音中至少存在两个目标对象的声音；提取单元，用于按照至少两个目标对象的声音的播放顺序，依次从声学特征信息中提取目标对象的表述特征，其中，表述特征用于表示目标对象发出声音时的表述方式；确定单元，用于基于表述特征以及播放顺序，确定语音对应的初始文本信息；处理单元，用于从声学特征信息中检测至少两个目标对象的转变结果，并基于转变结果对初始文本信息进行调整，得到对应的目标文本信息，其中，转变结果用于从声学特征信息中确定出现发出声音的目标对象存在转变的状况。

14、根据本专利技术实施例的另一方面，还提供了一种处理器。该处理器可以用于运行程序，其中，程序运行时执行任意一种上述的语音识别方法。

15、根据本专利技术实施例的另一方面，还提供了一种计算机可读存储介质，上述计算机可读存储介质存储有多条指令，上述指令适于由处理器加载并执行任意一项上述的语音识别方法。

16、根据本专利技术实施例的另一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行任意一项上述的语音识别方法。

17、在本专利技术实施例中，若需要对存在多个目标对象的声音的语音进行识别，可以先确定出待识别语音的声学特征信息，还可以分析出语音中目标对象的声音的播放顺序。可以按照播放顺序，依次从声学特征信息中提取出各个目标对象发出声音时的表述方式，也即，目标对象的表述特征，从而可以先根据表述特征和播放顺序，确定出语音的初始文本信息。由于仅通过按照播放顺序和表述特征，识别一次语音，会存在准确性不本文档来自技高网...

【技术保护点】

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，获取待识别的语音的声学特征信息，包括：

3.根据权利要求1所述的语音识别方法，其特征在于，按照至少两个所述目标对象的声音的播放顺序，依次从所述声学特征信息中提取所述目标对象的表述特征，包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述信息提取模型中包括第一层归一化、自注意机制层和第二层归一化，其中，调用信息提取模型按照所述播放顺序，依次从所述声学特征信息中识别至少两个所述目标对象对应的所述表述特征，包括：

5.根据权利要求1所述的语音识别方法，其特征在于，所述初始文本信息至少包括不同所述目标对象分别对应的第一文本信息，以及整个所述声学特征信息对应的第二文本信息。

6.根据权利要求1所述的语音识别方法，其特征在于，从所述声学特征信息中检测至少两个所述目标对象的转变结果，包括：

7.根据权利要求6所述的语音识别方法，其特征在于，所述第二识别模型中包括检测转变模型，其中，将所述初始文本信息和所述声学特征信息，输入

8.根据权利要求6所述的语音识别方法，其特征在于，所述第二识别模型中包括语音识别模型，其中，基于所述转变结果对所述初始文本信息进行调整，得到对应的目标文本信息，包括：

9.根据权利要求1所述的语音识别方法，其特征在于，在基于所述转变结果对所述初始文本信息进行调整，得到对应的目标文本信息之后，所述方法还包括：

10.根据权利要求9所述的语音识别方法，其特征在于，在对所述第一损失数据、所述第二损失数据和所述第三损失数据进行加权求和，得到在语音识别过程中的整体损失数据之后，所述方法还包括：

11.根据权利要求1所述的语音识别方法，其特征在于，在基于所述转变结果对所述初始文本信息进行调整，得到对应的目标文本信息之后，所述方法还包括：

12.一种语音识别装置，其特征在于，包括：

13.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序被所述处理器运行时执行权利要求1至11中任意一项所述的语音识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至11中任意一项所述的语音识别方法。

15.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至11中任意一项所述的语音识别方法。

...

【技术特征摘要】

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，获取待识别的语音的声学特征信息，包括：

6.根据权利要求1所述的语音识别方法，其特征在于，从所述声学特征信息中检测至少两个所述目标对象的转变结果，包括：

7.根据权利要求6所述的语音识别方法，其特征在于，所述第二识别模型中包括检测转变模型，其中，将所述初始文本信息和所述声学特征信息，输入至第二识别模型中，利用所述第二识别模型，检测出所述转变结果，包括：

8.根据权利要求6所述的语音识别方法，其特征在于，所述第二识别模型中包括语音识别模型，其中，...

【专利技术属性】
技术研发人员：刘博卿，康健，李杰，
申请(专利权)人：中电信人工智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人