本说明书实施例提供了一种目标词语检测模型的训练方法、目标词语的检测方法、目标词语检测模型、目标词语检测模型的训练装置、目标词语的检测装置、终端、计算机可读存储介质以及计算机程序产品。该目标词语检测模型的训练方法包括:将语音训练样本和目标词语集合输入至目标词语检测模型中,从而通过目标词语检测模型确定语音训练样本对应的第一音素序列,以及确定目标词语集合对应的第二音素序列,并通过该模型确定第一音素序列对应的第一向量和第二音素序列对应的第二向量。之后通过该模型确定第一向量包含第二向量的概率。最后根据概率等信息计算该模型的损失函数,并根据损失函数对该模型进行优化,从而得到训练后的目标词语检测模型。词语检测模型。词语检测模型。
【技术实现步骤摘要】
目标词语检测模型及其训练方法、目标词语的检测方法
[0001]本说明书实施例涉及语音处理
,尤其涉及一种目标词语检测模型的训练方法、目标词语的检测方法、目标词语检测模型、目标词语检测模型的训练装置、目标词语的检测装置、终端、计算机可读存储介质以及计算机程序产品。
技术介绍
[0002]在金融事务等相关场景中,用户会通过电话方式向客服进行求助、咨询或投诉等。在这种场景下,便需要通过语音数据(通话数据)来确定用户的意图。
[0003]相关技术中,通常是采用自动语音识别技术(Automatic Speech Recognition,ASR)对语音数据进行识别处理,再根据所识别到的文本进行内容理解和关键信息检测。但相关技术中对语音数据的关键信息检测方法在效率和准确率等方面还需要进一步的改进。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本说明书的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0005]本说明书实施例提供了一种目标词语检测模型、目标词语检测模型的训练方法、目标词语的检测方法、目标词语检测模型的训练装置、目标词语的检测装置、终端、计算机可读存储介质以及计算机程序产品,能够提高对语音数据进行关键信息检测时的效率和准确率。
[0006]本说明书实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本说明书的实践而习得。
[0007]根据本说明书实施例的第一个方面,提供一种目标词语检测模型的训练方法,该方法包括:将语音训练样本和目标词语集合输入至目标词语检测模型中;通过上述目标词语检测模型确定上述语音训练样本的音素,得到第一音素序列;通过上述目标词语检测模型确定上述目标词语集合中第一目标词语的音素,得到第二音素序列;通过上述目标词语检测模型确定上述第一音素序列对应的第一向量,以及,确定上述第二音素序列对应的第二向量;通过上述目标词语检测模型确定上述第一向量包含上述第二向量的概率;根据上述概率得到损失函数,并根据上述损失函数对上述目标词语检测模型进行优化,得到训练后的目标词语检测模型。
[0008]在本说明书一个实施例中,在上述将语音训练样本和目标词语集合输入至目标词语检测模型中之前,上述方法还包括:获取第一语音数据;对上述第一语音数据进行语音分割处理和/或非语音过滤处理,得到第二语音数据;确定上述第二语音数据中的发声主体,并确定不同的发声主体分别对应的第三语音数据;根据上述第三语音数据得到上述语音训练样本。
[0009]在本说明书一个实施例中,上述确定上述语音训练样本的音素,得到第一音素序列,包括:根据声学模型确定上述语音训练样本的音素,得到第一音素序列。
[0010]在本说明书一个实施例中,上述确定上述目标词语集合中第一目标词语的音素,得到第二音素序列,包括:根据发音词典确定上述目标词语集合中第一目标词语的音素,得到上述第二音素序列。
[0011]在本说明书一个实施例中,上述确定上述第一音素序列对应的第一向量,包括:对上述第一音素序列进行嵌入处理,得到上述第一音素序列对应的第一表征向量;对上述第一表征向量进行编码处理,得到上述第一向量;上述确定上述第二音素序列对应的第二向量,包括:对上述第二音素序列进行嵌入处理,得到上述第二音素序列对应的第二表征向量;对上述第二表征向量进行编码处理,得到上述第二向量。
[0012]根据本说明书实施例的第二个方面,提供一种目标词语的检测方法,该方法包括:将待检测语音数据输入至目标词语检测模型中,其中,上述目标词语检测模型为根据上述第一个方面所述的目标词语检测模型的训练方法得到;通过上述目标词语检测模型,确定上述待检测语音数据的音素,并根据上述待检测语音数据的音素,确定上述待检测语音数据中的第二目标词语。
[0013]根据本说明书实施例的第三个方面,提供一种目标词语检测模型,上述模型包括:特征提取层,用于确定上述语音训练样本的音素,得到第一音素序列;以及,确定上述目标词语集合中第一目标词语的音素,得到第二音素序列;嵌入编码层,用于确定上述第一音素序列对应的第一向量,以及,确定上述第二音素序列对应的第二向量;输出层,用于确定上述第一向量包含上述第二向量的概率,并根据上述概率确定上述语音训练样本中的第二目标词语。
[0014]根据本说明书实施例的第四个方面,提供一种目标词语检测模型的训练装置,上述装置包括:第一输入模块,用于:将语音训练样本和目标词语集合输入至目标词语检测模型中;第一确定模块,用于:通过上述目标词语检测模型确定上述语音训练样本的音素,得到第一音素序列;通过上述目标词语检测模型确定上述目标词语集合中第一目标词语的音素,得到第二音素序列;通过上述目标词语检测模型确定上述第一音素序列对应的第一向量,以及,确定上述第二音素序列对应的第二向量;通过上述目标词语检测模型确定上述第一向量包含上述第二向量的概率;优化模块,用于:根据上述概率得到损失函数,并根据上述损失函数对上述目标词语检测模型进行优化,得到训练后的目标词语检测模型。
[0015]根据本说明书实施例的第五个方面,提供一种目标词语的检测装置,上述装置包括:第二输入模块,用于:将待检测语音数据输入至目标词语检测模型中,其中,上述目标词语检测模型为根据上述第一个方面所述的目标词语检测模型的训练方法得到;第二确定模块,用于:通过上述目标词语检测模型,确定上述待检测语音数据的音素,并根据上述待检测语音数据的音素,确定上述待检测语音数据中的第二目标词语。
[0016]根据本说明书实施例的第六个方面,提供一种终端,包括:存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现上述第一个方面所述的目标词语检测模型的训练方法,以及实现上述第二个方面所述的目标词语的检测方法。
[0017]根据本说明书实施例的第七个方面,提供一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述第一个方面所述的目标词语检测模型的训练方法,以及实现上述第二个方面所述的目标词语的检测方法。
[0018]根据本说明书实施例的第八个方面,提供一种计算机程序产品,当上述计算机程序产品在计算机或处理器上运行时,使得上述计算机或处理器执行时实现上述第一个方面所述的目标词语检测模型的训练方法,以及实现上述第二个方面所述的目标词语的检测方法。
[0019]本说明书的实施例所提供的目标词语检测模型的训练方法、目标词语的检测方法、目标词语检测模型、目标词语检测模型的训练装置、目标词语的检测装置、终端、计算机可读存储介质以及计算机程序产品,具备以下技术效果:
[0020]本说明书示例性的实施例提供的方案适用于对目标词语检测模型进行训练,并通过训练后的目标词语检测模型来确定不同角色(以下记作:发音主体)的语音数据中的关键信息(例如,意图、敏感词、违禁词等,以下记作:目标词语)。具体地,上述目标词语检测模型的训练方法本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种目标词语检测模型的训练方法,其特征在于,包括:将语音训练样本和目标词语集合输入至目标词语检测模型中;通过所述目标词语检测模型确定所述语音训练样本的音素,得到第一音素序列;通过所述目标词语检测模型确定所述目标词语集合中第一目标词语的音素,得到第二音素序列;通过所述目标词语检测模型确定所述第一音素序列对应的第一向量,以及,确定所述第二音素序列对应的第二向量;通过所述目标词语检测模型确定所述第一向量包含所述第二向量的概率;根据所述概率得到损失函数,并根据所述损失函数对所述目标词语检测模型进行优化,得到训练后的目标词语检测模型。2.根据权利要求1所述的目标词语检测模型的训练方法,其特征在于,在所述将语音训练样本和目标词语集合输入至目标词语检测模型中之前,所述方法还包括:获取第一语音数据;对所述第一语音数据进行语音分割处理和/或非语音过滤处理,得到第二语音数据;确定所述第二语音数据中的发声主体,并确定不同的发声主体分别对应的第三语音数据;根据所述第三语音数据得到所述语音训练样本。3.根据权利要求1或2所述的目标词语检测模型的训练方法,其特征在于,所述确定所述语音训练样本的音素,得到第一音素序列,包括:根据声学模型确定所述语音训练样本的音素,得到第一音素序列。4.根据权利要求1或2所述的目标词语检测模型的训练方法,其特征在于,所述确定所述目标词语集合中第一目标词语的音素,得到第二音素序列,包括:根据发音词典确定所述目标词语集合中第一目标词语的音素,得到所述第二音素序列。5.根据权利要求1或2所述的目标词语检测模型的训练方法,其特征在于,所述确定所述第一音素序列对应的第一向量,包括:对所述第一音素序列进行嵌入处理,得到所述第一音素序列对应的第一表征向量;对所述第一表征向量进行编码处理,得到所述第一向量;所述确定所述第二音素序列对应的第二向量,包括:对所述第二音素序列进行嵌入处理,得到所述第二音素序列对应的第二表征向量;对所述第二表征向量进行编码处理,得到所述第二向量。6.一种目标词语的检测方法,其特征在于,包括:将待检测语音数据输入至目标词语检测模型中,其中,所述目标词语检测模型为根据权利要求1至5中任意一项训练得到;通过所述目标词语检测模型,确定所述待检测语音数据的音素,并根据所述待检测语音数据的音素,确定所述待检测语音数据中的第二目标...
【专利技术属性】
技术研发人员:吴凯凯,
申请(专利权)人:重庆蚂蚁消费金融有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。