语音标注方法、装置、计算机程序产品及存储介质制造方法及图纸

技术编号:33530138 阅读:16 留言:0更新日期:2022-05-19 01:59
本发明专利技术提供一种语音标注方法、装置、计算机程序产品及存储介质,该方法包括:获取标注人员对音频的初始标注结果,将初始标注结果输入预先训练的领域词汇抽取模型判断是否存在领域词汇;若不存在领域词汇,将所述初始标注结果作为最终标注结果;若存在领域词汇,确定初始标注结果中的领域词汇对应的目标领域词汇注音;将目标领域词汇注音输入至领域词汇查询系统,得到领域词汇参考列表,并将领域词汇参考列表发送给标注人员以使标注人员基于领域词汇参考列表对音频进行重新标注。本发明专利技术通过初始标注结果生成领域词汇参考列表,辅助标注人员对音频进行重新标注,实现对标注人员的实时领域词汇提示,以提高人工标注的准确性。以提高人工标注的准确性。以提高人工标注的准确性。

【技术实现步骤摘要】
语音标注方法、装置、计算机程序产品及存储介质


[0001]本专利技术实施例涉及一种语音标注方法、装置、计算机程序产品及存储介质。

技术介绍

[0002]语音识别系统对语音标注数据的准确性依赖非常强,目前的数据标注方法是人工听音频,并将人工认为的转写结果提交到系统。特定的标注要求需要通过标注规范,特殊词表等方式传递给标注方,但标注方依赖人工自觉进行标注。标注人员往往不具备特定领域知识,不能保证标注准确性。

技术实现思路

[0003]本专利技术提供一种语音标注方法及装置、电子设备及存储介质,用以解决现有技术中标注不准确的缺陷,实现准确的人工语音标注。
[0004]本专利技术提供一种语音标注方法,包括:
[0005]获取标注人员对音频的初始标注结果,将所述初始标注结果输入预先训练的领域词汇抽取模型判断是否存在领域词汇;
[0006]若不存在领域词汇,将所述初始标注结果作为最终标注结果;
[0007]若存在领域词汇,确定所述初始标注结果中的领域词汇对应的目标领域词汇注音;将所述目标领域词汇注音输入至领域词汇查询系统,得到领域词汇参考列表,并将所述领域词汇参考列表发送给标注人员以使标注人员基于所述领域词汇参考列表对所述音频进行重新标注。
[0008]根据本专利技术提供的一种语音标注方法,所述确定所述初始标注结果中的领域词汇对应的目标领域词汇注音,包括:
[0009]在所述初始标注结果中标记所述领域词汇;
[0010]基于发音字典将标记后的所述初始标注结果转换为第一发音序列并确定目标领域词汇注音。
[0011]根据本专利技术提供的一种语音标注方法,所述方法还包括:
[0012]将所述音频输入至语音识别系统得到第二发音序列;
[0013]计算所述第一发音序列与所述第二发音序列的最短编辑距离;
[0014]基于所述最短编辑距离确定与所述目标领域词汇注音对应的第二发音序列片段,将所述第二发音序列片段作为目标领域词汇注音。
[0015]根据本专利技术提供的一种语音标注方法,所述将所述目标领域词汇注音输入至领域词汇查询系统,得到领域词汇参考列表,包括:
[0016]将所述目标领域词汇注音输入至领域词汇查询系统的领域词汇数据库中进行搜索,得到搜索结果;
[0017]基于所述音频的元信息对所述搜索结果进行可靠性排序,得到领域词汇参考列表;
[0018]其中,所述音频的元信息包括录制时间、录制地点、录制类型中的至少一个。
[0019]根据本专利技术提供的一种语音标注方法,所述方法还包括:
[0020]接收标注人员基于所述领域词汇参考列表对所述音频标注的候选标注结果,将所述候选标注结果与所述领域词汇参考列表进行匹配验证;
[0021]若所述候选标注结果验证通过,将所述候选标注结果作为最终标注结果;
[0022]若所述候选标注结果验证不通过,继续接收其他标注人员对所述音频的候选标注结果,将所述候选标注结果与所述领域词汇参考列表进行匹配验证的步骤,直至确定最终标注结果。
[0023]根据本专利技术提供的一种语音标注方法,继续接收其他标注人员对所述音频的候选标注结果,将所述候选标注结果与所述领域词汇参考列表进行匹配验证的步骤,直至确定最终标注结果,包括:
[0024]接收其他标注人员对所述音频标注的候选标注结果,将所述候选标注结果与所述领域词汇参考列表进行匹配验证;
[0025]若所述候选标注结果验证通过,将所述候选标注结果作为最终标注结果;
[0026]若所述候选标注结果验证不通过,将所述候选标注结果与其他候选标注结果进行匹配,将匹配的候选标注结果作为最终标注结果。
[0027]根据本专利技术提供的一种语音标注方法,在不存在匹配的候选标注结果的情况下,所述方法还包括:
[0028]获取标注次数与预设的最大循环次数进行比较;
[0029]若所述标注次数等于所述最大循环次数,选择最优的候选标注结果作为最终标注结果;
[0030]若所述标注次数小于所述最大循环次数,继续接收其他标注人员对所述音频的候选标注结果。
[0031]根据本专利技术提供的一种语音标注方法,所述将所述候选标注结果与所述领域词汇参考列表进行匹配验证,包括:
[0032]将所述候选标注结果与所述领域词汇参考列表中预设范围内的领域词汇进行匹配。
[0033]本专利技术还提供一种语音标注装置,包括:
[0034]第一处理单元,用于获取标注人员对音频的初始标注结果,将所述初始标注结果输入预先训练的领域词汇抽取模型判断是否存在领域词汇;
[0035]第二处理单元,用于若不存在领域词汇,将所述初始标注结果作为最终标注结果;
[0036]第三处理单元,用于若存在领域词汇,确定所述初始标注结果中的领域词汇对应的目标领域词汇注音;将所述目标领域词汇注音输入至领域词汇查询系统,得到领域词汇参考列表,并将所述领域词汇参考列表发送给标注人员以使标注人员基于所述领域词汇参考列表对所述音频进行重新标注。
[0037]根据本专利技术提供的一种语音标注装置,所述第三处理单元还用于:
[0038]在所述初始标注结果中标记所述领域词汇;
[0039]基于发音字典将标记后的所述初始标注结果转换为第一发音序列并确定目标领域词汇注音。
[0040]根据本专利技术提供的一种语音标注装置,所述装置还包括第四处理单元,用于:
[0041]将所述音频输入至语音识别系统得到第二发音序列;
[0042]计算所述第一发音序列与所述第二发音序列的最短编辑距离;
[0043]基于所述最短编辑距离确定与所述目标领域词汇注音对应的第二发音序列片段,将所述第二发音序列片段作为目标领域词汇注音。
[0044]根据本专利技术提供的一种语音标注装置,所述第四处理单元还用于:
[0045]将所述目标领域词汇注音输入至领域词汇查询系统的领域词汇数据库中进行搜索,得到搜索结果;
[0046]基于所述音频的元信息对所述搜索结果进行可靠性排序,得到领域词汇参考列表;
[0047]其中,所述音频的元信息包括录制时间、录制地点、录制类型中的至少一个。
[0048]根据本专利技术提供的一种语音标注装置,所述装置还包括第五处理单元,用于:
[0049]接收标注人员基于所述领域词汇参考列表对所述音频标注的候选标注结果,将所述候选标注结果与所述领域词汇参考列表进行匹配验证;
[0050]若所述候选标注结果验证通过,将所述候选标注结果作为最终标注结果;
[0051]若所述候选标注结果验证不通过,继续接收其他标注人员对所述音频的候选标注结果,将所述候选标注结果与所述领域词汇参考列表进行匹配验证的步骤,直至确定最终标注结果。
[0052]根据本专利技术提供的一种语音标注装置,所述第五处理单元还用于:
[0053]接收其他标注人员对所述音频标注的候选标注结果,将所述候选标注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音标注方法,其特征在于,包括:获取标注人员对音频的初始标注结果,将所述初始标注结果输入预先训练的领域词汇抽取模型判断是否存在领域词汇;若不存在领域词汇,将所述初始标注结果作为最终标注结果;若存在领域词汇,确定所述初始标注结果中的领域词汇对应的目标领域词汇注音;将所述目标领域词汇注音输入至领域词汇查询系统,得到领域词汇参考列表,并将所述领域词汇参考列表发送给标注人员以使标注人员基于所述领域词汇参考列表对所述音频进行重新标注。2.根据权利要求1所述的语音标注方法,其特征在于,所述确定所述初始标注结果中的领域词汇对应的目标领域词汇注音,包括:在所述初始标注结果中标记所述领域词汇;基于发音字典将标记后的所述初始标注结果转换为第一发音序列并确定所述目标领域词汇注音。3.根据权利要求2所述的语音标注方法,其特征在于,所述方法还包括:将所述音频输入至语音识别系统得到第二发音序列;计算所述第一发音序列与所述第二发音序列的最短编辑距离;基于所述最短编辑距离确定与所述目标领域词汇注音对应的第二发音序列片段,将所述第二发音序列片段作为所述目标领域词汇注音。4.根据权利要求1所述的语音标注方法,其特征在于,所述将所述目标领域词汇注音输入至领域词汇查询系统,得到领域词汇参考列表,包括:将所述目标领域词汇注音输入至领域词汇查询系统的领域词汇数据库中进行搜索,得到搜索结果;基于所述音频的元信息对所述搜索结果进行可靠性排序,得到领域词汇参考列表;其中,所述音频的元信息包括录制时间、录制地点、录制类型中的至少一个。5.根据权利要求1所述的语音标注方法,其特征在于,所述方法还包括:接收标注人员基于所述领域词汇参考列表对所述音频标注的候选标注结果,将所述候选标注结果与所述领域词汇参考列表进行匹配验证;若所述候选标注结果验证通过,将所述候选标注结果作为最终标注结果;若所述候选标注结果验证不通过,继续接收其他标注人员对所述音频的候选标注结果,将所述候选标注结果与所述领域词汇参考列表进行匹配验证的步骤,直至确定最终标注结果。6.根据权利要求5...

【专利技术属性】
技术研发人员:沈明李先刚邹伟解传栋汤志远赵帅江韩阳
申请(专利权)人:贝壳找房网北京信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1