集外词处理方法、电子设备和存储介质技术

技术编号:35781476 阅读:20 留言:0更新日期:2022-12-01 14:27
本发明专利技术公开一种集外词处理方法,本申请实施例提供了一种集外词处理的方法、装置及设备,方法包括:响应获取的集外词,将获取的集外词建立为第一建模单元序列,将集内词建立为第二建模单元序列,查找与所述第一建模单元序列语音相似度最高的第二建模单元序列,建立所述第一建模单元序列与第二建模单元序列的跳转关系。计算所述第一音素序列与所述集内词音素序列之间的编辑距离,将编辑距离最短的第二音素序列确定为相似度最高的音素序列,从而将集外词映射至集内词上。本申请实施例能够减少重新收集集外词相关的训练语料以及重新训练声学模型耗费的巨大时间成本,提高了集外词在相关场景中的转换率。关场景中的转换率。关场景中的转换率。

【技术实现步骤摘要】
集外词处理方法、电子设备和存储介质


[0001]本专利技术属于语音识别领域,尤其涉及集外词处理方法的电子设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,语音识别技术取得了巨大的进步,并开始进入家电、通信、汽车、医疗等各个领域。目前在语音识别领域里,工业界里还是使用声学模型加语言模型的架构较多,虽然模型都是基于大规模语料训练的,并且大多数语料也已经收录进了语言模型中,但是语言模型不可能穷尽任何语料,因此难免还是会存在没见过实际场景中的语料,存在声学中没有遇见到的建模单元序列,这类不存在于声学建模单元序列的词语称为集外词。对于人名,地名或者公司组织等集外词名词,语言模型很难迅速得到识别,因此模型的鲁棒性很差。由于这一类的词汇在声学语料中是很难完全概括,所以识别率会比较差。
[0003]在交叉语种的场合下,例如在国内英文场景中,语音中会经常涉及到国内的很多地名,人名,公司组织名,但是语料里根本没有这类的发音,因此导致这一类的词汇很难识别出来。因此需要一种专门识别地名、人名,公司组织名的特定方法或者装置,来迅速将这类特定集外词转换为集内词,从而达到相关场景中的集外词的识别率。

技术实现思路

[0004]本申请实施例的目的在于提供一种集外词处理方法、装置及设备,以提高相关场景中的集外词的识别率,具体技术方案如下:
[0005]第一方面,本专利技术提供集外词转换成集内词的方法,包括,响应于获取的集外词,建立所述集外词为第一单元序列,其中集内词也会有相应的建模单元序列,建立集内词为第二单元序列,查找与所述第一建模单元序列语音相似度最高的第二建模单元序列,建立所述第一建模单元序列与第二建模单元序列的跳转关系。跳转关系的完成是通过计算所述第一建模单元的音素序列与所述集内词第二建模单元的音素序列之间的编辑距离,将编辑距离最短的第二音素序列确定为相似度最高的音素序列,从而将集外词映射至集内词上。
[0006]第二方面,本专利技术提供一种集外词处理装置,包括:
[0007]查找程序模块,配置为响应于获取的集外词,响应于获取的集外词,建立集外词为第一单元序列,建立集内词为第二建模单元序列,查找与所述第一建模单元序列语音相似度最高的第二建模单元序列,建立所述第一建模单元序列与第二建模单元序列的跳转关系。计算所述第一音素序列与所述集内词音素序列之间的编辑距离,将编辑距离最短的第二音素序列确定为相似度最高的音素序列,从而将集外词映射至集内词上。
[0008]第三方面,本专利技术提供一种电子设备,其包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器有可被所述处理器至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使所述处理器至少一个处理器能够执行本专利技术任一施例中的集外词到集内词的映射。
[0009]第四方面,一种存储介质,其上存储有计算机程序,其特征在于所述程序被处理器执行本专利技术的任一施例中的集外词到集内词的映射。
[0010]本申请实施例通过将获取的集外词建立为第一建模单元序列,将集内词建立为第二建模单元序列,使用查找与所述第一建模单元序列语音相似度最高的第二建模单元序列,建立所述第一建模单元序列与第二建模单元序列的跳转关系。计算所述第一音素序列与所述集内词音素序列之间的编辑距离,将编辑距离最短的第二音素序列确定为相似度最高的音素序列,从而将集外词映射至集内词上。本申请实施例能够减少重新收集集外词相关的训练语料以及重新训练声学模型耗费的巨大时间成本,提高了集外词在相关场景中的转换率。
附图说明
[0011]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1为本专利技术实施例提供的一种集外词处理方法的流程图;
[0013]图2为本专利技术实施例提供的另一种集外词处理方法的流程图;
[0014]图3为本专利技术实施例提供又一种集外词处理方法的流程图;
[0015]图4为本专利技术实施例提供的一种集外词处理方法的一个具体示例的流程图;
[0016]图5为本专利技术一实施例提供的集外词处理方法的设备的结构示意图;
[0017]图6是本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]请参考图1,其出示了本申请一实施例提供的一种集外词处理方法的流程图,本实施例的集外词处理方法可以适用于交叉语种场合中的人名、地名或公司组织名的识别中。
[0020]如图1所示,在步骤101中,响应于获取的集外词,查找与所述集外词语音相似度最高的集内词;
[0021]在步骤102中,将所述集外词映射至所述集内词上。
[0022]在本实施例中,对于步骤101,集外词处理装置获取集外词,开始对获取的集外词进行相关的处理,集外词处理装置对于所获取的集外词,通过语音相似度查找,查找出与所述集外词语音相似度最高的集内词。之后,对于步骤102,集外词处理装置将从外界获取的集外词映射至语音相似度最高的集内词上。其中,集外词,又称未登录词,英文表示是oov(out of vocabulary),未登录词又称为生词(unknown word),可以有两种解释:一是指已有的词表中没有收录的词;二是指已有的训练语料中未曾出现过的词。在本申请实施例中,集外词可以指在训练集中未曾出现的词集合,可以理解为:一套语音识别系统只能识别出来训练集中的高频词汇,识别不出来的被称为集外词,举例来说一个0

9数字鼓励词识别系
统无法识别数字10,此时10即为集外词。
[0023]本实施例的方法可以对集外词进行处理,例如可以对首次检测出的集外词进行处理,后续在遇到该集外词找到映射关系就可以当成集内词处理,不用每次都需要对集外词进行处理,从而大大提高了语音识别的效率。
[0024]在本实施例中,对于步骤101,集外词处理装置会将获取的集外词建立为第一单元建模单位。
[0025]对于步骤102,集内词也会有相应的建模单元序列,将集内词的建模单元序列定义为第二单元建模单元序列,查找与所述集外词语音相似度最高的集内词。集外词处理装置会通过字素到音素映射(Grapheme

to

Phoneme,G2P)模型,建立所述第一建模单元序列与所述第二建模单元序列的跳转关系。
[0026]在步骤103中,集外词处理装置会计算第一音素序列与所述任一集内词音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集外词处理方法,包括:响应于获取的集外词,查找与所述集外词语音相似度最高的集内词;将所述集外词映射至所述集内词上。2.根据权利要求1所述的方法,其特征在于,所述响应于获取的集外词,查找与所述集外词语音相似度最高的集内词包括:响应于获取的集外词,将所述集外词转换成第一建模单元序列,其中,每一个集内词均具有对应的建模单元序列;查找与所述第一建模单元序列语音相似度最高的第二建模单元序列。3.根据权利要求2所述的方法,其特征在于,将所述集外词映射至所述集内词上包括:建立所述第一建模单元序列与所述第二建模单元序列的跳转关系。4.根据权利要求2所述的方法,其特征在于,所述查找与所述第一建模单元序列语音相似度最高的第二建模单元序列包括:将所述第一建模单元序列和发音词典中集内词的建模单元序列均输入至字素到音素映射模型以得到与所述第一建模单元序列对应的第一音素序列和与所述集内词的建模单元序列对应的集内词音素序列;计算所述第一音素序列与任一集内词音素序列的相似度以查找与所述第一音素序列语音相似度最高的第二音素序列,其中,所述第二音素序列对应第二建模单元。5.根据权利要求4所...

【专利技术属性】
技术研发人员:唐健
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1