数据标注方法、装置、电子设备和可读介质制造方法及图纸

技术编号:33649137 阅读:28 留言:0更新日期:2022-06-02 20:26
本申请提供一种数据标注方法、装置、电子设备和可读介质。方法包括:获取待检测音频数据,待检测音频数据中包括含有目标词的语句;对待检测音频数据进行目标词识别,得到在待检测音频数据中目标词的时间戳;对待检测音频数据进行音频切分,得到对应于待检测音频数据中各个语句的音频片段;根据各个语句的音频片段中对应于目标词的时间戳的音频片段,生成标注数据。方法能够精准提取出目标词所在语句的语料数据,提升标注数据与目标词的相关性,从而提升标注数据的有效性,进而有利于提升模型的训练效率。训练效率。训练效率。

【技术实现步骤摘要】
数据标注方法、装置、电子设备和可读介质


[0001]本申请涉及计算机
,尤其涉及一种数据标注方法、装置、电子设备和可读介质。

技术介绍

[0002]随着人工智能技术的发展,机器学习模型经常被用于对音频或者包括音频的多媒体资源的内容进行识别和处理,而机器学习模型的训练过程通常需要大量带有标注的标注数据作为训练数据。
[0003]在相关技术中,生成标注数据的方式通常根据一段音频数据中所包括的目标词来对音频数据进行标注。
[0004]然而,通过上述标注过程得到的标注数据通常包括大量不包含目标词的语句,使得标注数据的有效性降低,从而影响模型的训练效率。

技术实现思路

[0005]基于上述技术问题,本申请提供一种数据标注方法、装置、电子设备和可读介质,以精准提取出目标词所在语句的语料数据,提升标注数据与目标词的相关性,从而提升标注数据的有效性,进而有利于提升模型的训练效率。
[0006]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0007]根据本申请实施例的一个方面,提供一种数据标注方法,包括:
[0008]获取待检测音频数据,所述待检测音频数据中包括含有目标词的语句;
[0009]对所述待检测音频数据进行目标词识别,得到在所述待检测音频数据中所述目标词的时间戳;
[0010]对所述待检测音频数据进行音频切分,得到对应于所述待检测音频数据中各个语句的音频片段;
[0011]根据所述各个语句的音频片段中对应于所述目标词的时间戳的音频片段,生成标注数据。
[0012]根据本申请实施例的另一个方面,提供一种数据标注装置,包括:
[0013]数据获取模块,用于获取待检测音频数据,所述待检测音频数据中包括含有目标词的语句;
[0014]目标词识别模块,用于对所述待检测音频数据进行目标词识别,得到在所述待检测音频数据中所述目标词的时间戳;
[0015]音频切分模块,用于对所述待检测音频数据进行音频切分,得到对应于所述待检测音频数据中各个语句的音频片段;
[0016]标注数据生成模块,用于根据所述各个语句的音频片段中对应于所述目标词的时间戳的音频片段,生成标注数据。
[0017]在本申请的一些实施例中,基于以上技术方案,所述数据获取模块包括:
[0018]候选音频获取单元,用于获取至少一个候选音频数据;
[0019]音频分类单元,用于通过音频分类模型,对所述至少一个候选音频数据进行音频分类,得到各个候选音频数据对应场景标签和场景分数;
[0020]音频筛选单元,用于根据所述场景标签和所述场景分数,从所述至少一个候选音频数据中筛选出场景标签为语音场景并且高于预设目标分数的音频数据作为所述待检测音频数据。
[0021]在本申请的一些实施例中,基于以上技术方案,所述目标词识别模块包括:
[0022]特征提取单元,用于对所述待检测音频数据进行特征提取,得到语音特征;
[0023]目标词检测单元,用于根据预设声学模型以及所述语音特征对所述待检测音频数据中的目标词进行检测,确定所述目标词在所述待检测音频数据中的音频帧;
[0024]时间戳确定单元,用于根据所述音频帧在所述待检测音频数据中的播放时间,确定所述目标词的时间戳。
[0025]在本申请的一些实施例中,基于以上技术方案,所述音频切分模块包括:
[0026]文字转换单元,用于对所述待检测音频数据进行文字转换,得到所述待检测音频数据中语句的文本内容;
[0027]切分单元,用于通过分句模型根据所述待检测音频数据中的静默区域,对所述待检测音频数据进行切分,得到对应于各个语句的音频片段,其中,每个音频片段对应于一个语句的文本内容,所述音频片段中包括对应语句在所述待检测音频数据中的播放时间的时间戳。
[0028]在本申请的一些实施例中,基于以上技术方案,所述标注数据生成模块包括:
[0029]片段确定单元,用于根据所述目标词的时间戳与所述各个语句的音频片段的时间戳的映射关系,确定含有所述目标词的语句对应的音频片段;
[0030]标注数据生成单元,用于若所述语句的文本内容中含有所述目标词,则根据所述语句对应的音频片段、所述文本内容、所述目标词和所述音频片段的时间戳,生成所述标注数据。
[0031]在本申请的一些实施例中,基于以上技术方案,数据标注装置还包括:
[0032]待训练语句确定单元,用于根据所述待检测音频数据中语句的实际文本内容和切分得到的所述音频片段,确定所述音频片段与所述文本内容匹配度低于匹配阈值的待训练语句;
[0033]针对性训练单元,用于根据所述待训练语句和所述待检测音频数据,对所述分句模型进行针对性训练。
[0034]根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的数据标注方法。
[0035]根据本申请实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的数据标注方法。
[0036]根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质
中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供数据标注方法。
[0037]在本申请的实施例中,从待检测音频数据中识别书目标词的时间戳,并且对待检测音频数据进行音频切分,得到音频数据中各个语句的音频片段,最后根据目标词的时间戳对应的音频片段生成标注数据。通过上述的方式,能够从待检测音频数据中去除与目标词无关的语句所对应的音频信息,精准提取出目标词所在语句的语料数据,提升标注数据与目标词的相关性,从而提升标注数据的有效性,进而有利于提升模型的训练效率。
[0038]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0039]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]在附图中:
[0041]图1是本申请涉及的一种实施环境的示例图;
[0042]图2为本申请实施例中的整体方案流程的示意流程图;
[0043]图3为本申请实施例中的数据标注方法的示意性流程图;
[0044]图4为本申请实施例中音频分类的流程示意图;
[0045]图5示出了本申请实施例中音频处理流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:获取待检测音频数据,所述待检测音频数据中包括含有目标词的语句;对所述待检测音频数据进行目标词识别,得到在所述待检测音频数据中所述目标词的时间戳;对所述待检测音频数据进行音频切分,得到对应于所述待检测音频数据中各个语句的音频片段;根据所述各个语句的音频片段中对应于所述目标词的时间戳的音频片段,生成标注数据。2.根据权利要求1所述的方法,其特征在于,所述获取待检测音频数据,包括:获取至少一个候选音频数据;通过音频分类模型,对所述至少一个候选音频数据进行音频分类,得到各个候选音频数据对应场景标签和场景分数;根据所述场景标签和所述场景分数,从所述至少一个候选音频数据中筛选出场景标签为语音场景并且高于预设目标分数的音频数据作为所述待检测音频数据。3.根据权利要求1所述的方法,其特征在于,所述对所述待检测音频数据进行目标词识别,得到在所述待检测音频数据中所述目标词的时间戳,包括:对所述待检测音频数据进行特征提取,得到语音特征;根据预设声学模型以及所述语音特征对所述待检测音频数据中的目标词进行检测,确定所述目标词在所述待检测音频数据中的音频帧;根据所述音频帧在所述待检测音频数据中的播放时间,确定所述目标词的时间戳。4.根据权利要求1所述的方法,其特征在于,所述对所述待检测音频数据进行音频切分,得到对应于所述待检测音频数据中各个语句的音频片段,包括:对所述待检测音频数据进行文字转换,得到所述待检测音频数据中语句的文本内容;通过分句模型根据所述待检测音频数据中的静默区域,对所述待检测音频数据进行切分,得到对应于各个语句的音频片段,其中,每个音频片段对应于一个语句的文本内容,所述音频片段中包括对应语句在所述待检测音频数据中的播放时间的时间戳。5.根据权利要求4所述的方法,其特征在于,所述根据所述各个语句的音频片段中对应于所述目标词的时间戳的音频片段,生成标注数据,包括:根据所述目...

【专利技术属性】
技术研发人员:王书培刘攀
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1