热词确定方法及装置、存储介质和电子设备制造方法及图纸

技术编号:35752639 阅读:13 留言:0更新日期:2022-11-26 18:58
本公开提供了一种热词确定方法、热词确定装置、存储介质和电子设备,涉及语音识别技术领域。该热词确定方法包括:获取当前帧语音数据,将当前帧语音数据转化为当前帧文本;利用当前帧文本以及与当前帧对应的邻近帧文本确定候选热词;确定候选热词的至少一个特征表达,并利用候选热词的至少一个特征表达对候选热词进行聚类,根据聚类结果确定出热词。本公开可以提高生成热词的效率。开可以提高生成热词的效率。开可以提高生成热词的效率。

【技术实现步骤摘要】
热词确定方法及装置、存储介质和电子设备


[0001]本公开涉及语音识别
,具体而言,涉及一种热词确定方法、热词确定装置、存储介质和电子设备。

技术介绍

[0002]随着人工智能技术的发展,语音识别技术已经应用于各种行业,赋能各行业的产业发展,在例如客服、金融、医疗等领域均有着广泛的应用。对于特定领域下的语音识别任务而言,成功识别某些专有词汇是至关重要的。例如在电信运营商客服场景下,存在“流量包”“大王卡”等专有词汇,此类词汇的识别往往对下游任务如客户意图分析等具有重要作用,我们称这种词汇为热词。然而,在实际应用中发现,往往由于缺少包含该词汇的训练数据、新热词的出现迭代频繁等导致热词的识别效果偏差,所以,对于研发人员而言,如何及时判定并生成热词,是提高领域热词的语音识别准确率的一个重要问题。
[0003]目前,需要耗费大量人力进行热词标注,效率低且准确性差。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种热词确定方法、热词确定装置、存储介质和电子设备,进而至少在一定程度上克服人工标注热词效率低且不准确的问题。
[0006]根据本公开的第一方面,提供了一种热词确定方法,包括:获取当前帧语音数据,将当前帧语音数据转化为当前帧文本;利用当前帧文本以及与当前帧对应的邻近帧文本确定候选热词;确定候选热词的至少一个特征表达,并利用候选热词的至少一个特征表达对候选热词进行聚类,根据聚类结果确定出热词。
[0007]可选地,利用当前帧文本以及与当前帧对应的邻近帧文本确定候选热词包括:利用当前帧文本以及与当前帧对应的邻近帧文本确定原始词汇;确定原始词汇的凝固度和自由度,凝固度表征原始词汇中字与字之间的紧密程度,自由度表征原始词汇能够独立自由运用的程度;如果原始词汇的凝固度大于凝固度阈值且原始词汇的自由度大于自由度阈值,则将原始词汇确定为候选热词。
[0008]可选地,确定候选热词的至少一个特征表达包括:利用热词所属领域的文本数据库和已有热词表确定候选热词的第一特征表达;利用通用词汇表确定候选热词的第二特征表达;对候选热词进行词向量转化,以得到候选热词的第三特征表达。
[0009]可选地,利用热词所属领域的文本数据库和已有热词表确定候选热词的第一特征表达包括:确定候选热词和已有热词表中已有热词同时出现在文本数据库的频率信息;根据频率信息确定候选热词的第一特征表达。
[0010]可选地,利用候选热词的至少一个特征表达对候选热词进行聚类,根据聚类结果确定出热词,包括:初始化类中心;确定第一特征表达与类中心之间的第一距离;确定第二
特征表达与类中心之间的第二距离;确定第三特征表达与类中心之间的第三距离;计算第一距离、第二距离、第三距离的平均距离,并结合平均距离对类中心进行迭代更新,以得到聚类结果;根据聚类结果确定出热词。
[0011]可选地,热词确定方法还包括:在确定出热词之后,确定热词对应的激励值。
[0012]可选地,确定热词对应的激励值包括:根据当前热词表计算参数固定的语音识别模型在测试集上的最优解,以确定出热词对应的激励值。
[0013]根据本公开的第二方面,提供了一种热词确定装置,包括:数据转换模块,用于获取当前帧语音数据,将当前帧语音数据转化为当前帧文本;候选热词确定模块,用于利用当前帧文本以及与当前帧对应的邻近帧文本确定候选热词;热词确定模块,用于确定候选热词的至少一个特征表达,并利用候选热词的至少一个特征表达对候选热词进行聚类,根据聚类结果确定出热词。
[0014]可选地,候选热词确定模块可以被配置为执行:利用当前帧文本以及与当前帧对应的邻近帧文本确定原始词汇;确定原始词汇的凝固度和自由度,凝固度表征原始词汇中字与字之间的紧密程度,自由度表征原始词汇能够独立自由运用的程度;如果原始词汇的凝固度大于凝固度阈值且原始词汇的自由度大于自由度阈值,则将原始词汇确定为候选热词。
[0015]可选地,热词确定模块确定候选热词的至少一个特征表达的过程可以被配置为执行:利用热词所属领域的文本数据库和已有热词表确定候选热词的第一特征表达;利用通用词汇表确定候选热词的第二特征表达;对候选热词进行词向量转化,以得到候选热词的第三特征表达。
[0016]可选地,热词确定模块确定候选热词的第一特征表达的过程可以被配置为执行:确定候选热词和已有热词表中已有热词同时出现在文本数据库的频率信息;根据频率信息确定候选热词的第一特征表达。
[0017]可选地,热词确定模块可以被配置为执行:初始化类中心;确定第一特征表达与类中心之间的第一距离;确定第二特征表达与类中心之间的第二距离;确定第三特征表达与类中心之间的第三距离;计算第一距离、第二距离、第三距离的平均距离,并结合平均距离对类中心进行迭代更新,以得到聚类结果;根据聚类结果确定出热词。
[0018]可选地,热词确定装置还可以包括激励值确定模块。
[0019]具体的,激励值确定模块可以被配置为执行:在确定出热词之后,确定热词对应的激励值。
[0020]可选地,激励值确定模块可以被配置为执行:根据当前热词表计算参数固定的语音识别模型在测试集上的最优解,以确定出热词对应的激励值。
[0021]根据本公开的第三方面,提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述热词确定方法。
[0022]根据本公开的第四方面,提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;该处理器被配置为经由执行可执行指令来实现上述热词确定方法。
[0023]在本公开的一些实施例所提供的技术方案中,将当前帧语音数据转化为当前帧文本,利用当前帧文本以及与当前帧对应的邻近帧文本确定候选热词,确定候选热词的至少
一个特征表达,并利用候选热词的至少一个特征表达对候选热词进行聚类,根据聚类结果确定出热词。本公开确定热词的过程无需人工参与,提高了热词生成的效率,并且鉴于没有人为主观因素的影响,热词确定的准确性也得到了提升,提高了语音识别的准确率。
[0024]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0025]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0026]图1示意性示出了本公开示例性实施方式的热词确定方法的流程图;
[0027]图2示意性示出了本公开实施例的确定候选热词的流程图;
[0028]图3示意性示出了本公开实施例的热词识别的整个过程的流程图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种热词确定方法,其特征在于,包括:获取当前帧语音数据,将所述当前帧语音数据转化为当前帧文本;利用所述当前帧文本以及与当前帧对应的邻近帧文本确定候选热词;确定所述候选热词的至少一个特征表达,并利用所述候选热词的至少一个特征表达对所述候选热词进行聚类,根据聚类结果确定出热词。2.根据权利要求1所述的热词确定方法,其特征在于,利用所述当前帧文本以及与当前帧对应的邻近帧文本确定候选热词包括:利用所述当前帧文本以及与当前帧对应的邻近帧文本确定原始词汇;确定所述原始词汇的凝固度和自由度,所述凝固度表征所述原始词汇中字与字之间的紧密程度,所述自由度表征所述原始词汇能够独立自由运用的程度;如果所述原始词汇的凝固度大于凝固度阈值且所述原始词汇的自由度大于自由度阈值,则将所述原始词汇确定为所述候选热词。3.根据权利要求1所述的热词确定方法,其特征在于,确定所述候选热词的至少一个特征表达包括:利用热词所属领域的文本数据库和已有热词表确定所述候选热词的第一特征表达;利用通用词汇表确定所述候选热词的第二特征表达;对所述候选热词进行词向量转化,以得到所述候选热词的第三特征表达。4.根据权利要求3所述的热词确定方法,其特征在于,利用热词所属领域的文本数据库和已有热词表确定所述候选热词的第一特征表达包括:确定所述候选热词和所述已有热词表中已有热词同时出现在所述文本数据库的频率信息;根据所述频率信息确定所述候选热词的第一特征表达。5.根据权利要求3所述的热词确定方法,其特征在于,利用所述候选热词的至少一个特征表达对所述候选...

【专利技术属性】
技术研发人员:石丽娟汪洋杜洋
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1