音频挑选的方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:30138512 阅读:14 留言:0更新日期:2021-09-23 14:54
本申请公开了一种音频挑选方法、装置、电子设备和可读存储介质,属于人工智能领域。音频挑选方法,包括:获取部分音频,利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型,根据所述音频转写结果对应于所述第一模型与第二模型的概率不同,对所述音频进行挑选。从而解决了现有技术在挑选音频时,挑选到识别较好的音频,降低了标注的有益效果和收益的问题。低了标注的有益效果和收益的问题。低了标注的有益效果和收益的问题。

【技术实现步骤摘要】
音频挑选的方法、装置、电子设备和可读存储介质


[0001]本专利技术涉及人工智能
,特别是涉及一种音频挑选的方法、装置、电子设备和可读存储介质。

技术介绍

[0002]目前,在语音识别过程中,通过预设的模型对音频进行识别,当预设的语音对音频的识别效果较差时,通常把这些音频选取出来,在这些音频上施加提高识别率的标注。
[0003]现有技术中,采用随机选取的方式来挑选这些音频。
[0004]然而,现有技术在挑选音频的过程中,由于采用随机选取的方式,挑选得到的音频会包括识别较好的音频,这将大大降低了标注的有益效果和收益,为此,采用什么方式挑选音频,成了要解决的问题。

技术实现思路

[0005]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种音频挑选方法、装置、电子设备和可读存储介质。
[0006]依据本专利技术的第一方面,提供了音频挑选方法,该方法包括:
[0007]获取部分音频;
[0008]利用预设的第一模型识别所述音频,生成音频转写结果,将所述音频转写结果生成第二模型,其中,所述转写用于将所述音频转变为文本格式;
[0009]根据所述音频转写结果应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选。
[0010]依据本专利技术的第二方面,提供了一种音频挑选装置,该装置包括:
[0011]获取模块,用于获取部分音频;
[0012]转写模块,用于利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型;
[0013]挑选模块,用于根据所述音频转写结果对应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选。
[0014]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0015]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0016]在本申请实施例中,可以通过预设的第一模型对音频进行转写,通过转写结果,获取转写结果生成的第二模型,根据音频转写结果对于第一模型与第二模型的概率计算结果,挑选出音频。通过转写得出的第二模型,具备一定的统计特性,选取出具备项目统计特性同时预设模型识别较差的音频。从而解决了现有技术在挑选音频时,挑选到识别较好的
音频的问题。本申请实施例提供的技术方案通过比较的方式挑选音频,精确度高,操作简单,易于实现。
附图说明
[0017]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0018]图1是本专利技术实施例提供的一种音频挑选方法的步骤流程图;
[0019]图2是本专利技术实施例提供的获取音频统计特性步骤流程图;
[0020]图3是本专利技术实施例提供的一种音频ppl数值计算步骤流程图;
[0021]图4是本专利技术实施例提供的音频挑选装置的结构示意图;
[0022]图5是本专利技术实施例提供的音频挑选装置402的结构示意图之一;
[0023]图6是本专利技术实施例提供的音频挑选装置402的结构示意图之二;
[0024]图7是本专利技术实施例提供的电子设备的结构示意图。
具体实施方式
[0025]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0026]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
[0027]图1是本专利技术实施例提供的一种数据获取方法的步骤流程图,如图1所示,该方法可以包括:
[0028]步骤101、获取部分音频。
[0029]本专利技术实施例中,获取的音频为人声,其中,音效可为任意情况,人声的语音逻辑可为任意情况。为了便于理解和说明,在本实施例及以下实施例中仅以清晰音频为例进行说明,不对音频的语言逻辑作限制。
[0030]需要说明的是,本实施例并不对获取音频的源头进行限定,在实际的使用过程中,音频可以是从麦克风、电话、手机、电脑等可录音设备获取的人声。
[0031]步骤102、利用预设的第一模型识别音频过程中,将音频转写为第二模型。
[0032]在本实施例中,预设的第一模型为语音识别中提前设置的模型,预设的第一模型由声学模型与语言模型组成,通过预设的第一模型对音频进行识别。
[0033]其中,在识别过程中,预设的第一模型会通过对音频的转写,对于音频的转写是将音频中所包含的信息转写为文本格式。
[0034]在本实施例中,根据音频转写所得的文本生成第二模型,第二模型仅为语言模型,
通过第二模型计算音频转写所得文本在第二模型中所对应的概率。
[0035]如图2所示,步骤102还包括:
[0036]步骤201,预设模型对音频进行识别。
[0037]在本实施例中,在通过转写结果生成新语言模型的情况下,步骤201通过预设模型对音频进行识别;
[0038]步骤202,根据识别过程中的转写所得结果,获取音频的统计特性。
[0039]通过预设的第一模型对音频的转写,得出音频转写结果为文本数据,对文本数据进行统计,获取音频转写结果的的统计特性。
[0040]步骤103,根据音频转写结果对应于预设模型与第二模型的概率不同,对音频进行挑选。
[0041]在本实施例中,分别计算音频对于预设的第一模型和第二模型的概率,通过计算困惑度的方式,获取音频转写结果对于模型的概率。困惑度用于衡量文本对于语言模型的概率,困惑度的公式测得ppl的数值,ppl越小,p(wi)的连乘结果则越大,也就是说音频中每句话的概率较高,说明这句话契合的表现较好。计算出两个困惑度结果,一个结果是音频相对于预设的第一模型的困惑度结果,另一个结果是音频相对于第二模型的困惑度结果。
[0042]在本实施例中,根据困惑度结果,挑选出对于预设的第一模型的ppl值较大(即音频对应于预设模型概率较低),而对于第二模型的ppl值较小(即音频对应于第二模型概率较高)的音频。
[0043]如图3,步骤10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频挑选方法,其特征在于,所述方法包括:获取部分音频;利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型,其中,所述转写用于将所述音频转变为文本格式;根据所述音频转写结果对应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选。2.根据权利要求1所述的方法,其特征在于,利用预设的第一模型识别所述音频生成音频转写结果,根据所述音频转写结果生成第二模型,包括:所述预设的第一模型为ASR模型,由声学模型和第一语言模型构成;所述第二模型由音频转写的文本所组成。3.根据权利要求2所述的方法,其特征在于,所述第二模型由音频转写的文本所组成,包括:所述第二模型为由转写结果组成的第二语言模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述音频转写结果对应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选,包括:所述概率为困惑度计算结果,其中,所述困惑度为:用来度量一个概率分布或概率模型预测样本的好坏程度。5.根据权利要求4所述的方法,其特征在于,所述概率为困惑度计算结果,包括:挑选出对于所述预设模型第一困惑度结果...

【专利技术属性】
技术研发人员:罗研朝武卫东
申请(专利权)人:北京天行汇通信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1