数据标注方法、装置、电子设备和可读介质制造方法及图纸

技术编号：33649137 阅读：28 留言：0更新日期：2022-06-02 20:26

本申请提供一种数据标注方法、装置、电子设备和可读介质。方法包括：获取待检测音频数据，待检测音频数据中包括含有目标词的语句；对待检测音频数据进行目标词识别，得到在待检测音频数据中目标词的时间戳；对待检测音频数据进行音频切分，得到对应于待检测音频数据中各个语句的音频片段；根据各个语句的音频片段中对应于目标词的时间戳的音频片段，生成标注数据。方法能够精准提取出目标词所在语句的语料数据，提升标注数据与目标词的相关性，从而提升标注数据的有效性，进而有利于提升模型的训练效率。训练效率。训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
数据标注方法、装置、电子设备和可读介质

[0001]本申请涉及计算机
，尤其涉及一种数据标注方法、装置、电子设备和可读介质。

技术介绍

[0002]随着人工智能技术的发展，机器学习模型经常被用于对音频或者包括音频的多媒体资源的内容进行识别和处理，而机器学习模型的训练过程通常需要大量带有标注的标注数据作为训练数据。
[0003]在相关技术中，生成标注数据的方式通常根据一段音频数据中所包括的目标词来对音频数据进行标注。
[0004]然而，通过上述标注过程得到的标注数据通常包括大量不包含目标词的语句，使得标注数据的有效性降低，从而影响模型的训练效率。

技术实现思路

[0005]基于上述技术问题，本申请提供一种数据标注方法、装置、电子设备和可读介质，以精准提取出目标词所在语句的语料数据，提升标注数据与目标词的相关性，从而提升标注数据的有效性，进而有利于提升模型的训练效率。
[0006]本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。
[0007]根据本申请实施例的一个方面，提供一种数据标注方法，包括：
[0008]获取待检测音频数据，所述待检测音频数据中包括含有目标词的语句；
[0009]对所述待检测音频数据进行目标词识别，得到在所述待检测音频数据中所述目标词的时间戳；
[0010]对所述待检测音频数据进行音频切分，得到对应于所述待检测音频数据中各个语句的音频片段；
[0011]根据所述各个语句的音频片段...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法，其特征在于，包括：获取待检测音频数据，所述待检测音频数据中包括含有目标词的语句；对所述待检测音频数据进行目标词识别，得到在所述待检测音频数据中所述目标词的时间戳；对所述待检测音频数据进行音频切分，得到对应于所述待检测音频数据中各个语句的音频片段；根据所述各个语句的音频片段中对应于所述目标词的时间戳的音频片段，生成标注数据。2.根据权利要求1所述的方法，其特征在于，所述获取待检测音频数据，包括：获取至少一个候选音频数据；通过音频分类模型，对所述至少一个候选音频数据进行音频分类，得到各个候选音频数据对应场景标签和场景分数；根据所述场景标签和所述场景分数，从所述至少一个候选音频数据中筛选出场景标签为语音场景并且高于预设目标分数的音频数据作为所述待检测音频数据。3.根据权利要求1所述的方法，其特征在于，所述对所述待检测音频数据进行目标词识别，得到在所述待检测音频数据中所述目标词的时间戳，包括：对所述待检测音频数据进行特征提取，得到语音特征；根据预设声学模型以及所述语音特征对所述待检测音频数据中的目标词进行检测，确定所述目标词在所述待检测音频数据中的音频帧；根据所述音频帧在所述待检测音频数据中的播放时间，确定所述目标词的时间戳。4.根据权利要求1所述的方法，其特征在于，所述对所述待检测音频数据进行音频切分，得到对应于所述待检测音频数据中各个语句的音频片段，包括：对所述待检测音频数据进行文字转换，得到所述待检测音频数据中语句的文本内容；通过分句模型根据所述待检测音频数据中的静默区域，对所述待检测音频数据进行切分，得到对应于各个语句的音频片段，其中，每个音频片段对应于一个语句的文本内容，所述音频片段中包括对应语句在所述待检测音频数据中的播放时间的时间戳。5.根据权利要求4所述的方法，其特征在于，所述根据所述各个语句的音频片段中对应于所述目标词的时间戳的音频片段，生成标注数据，包括：根据所述目...

【专利技术属性】
技术研发人员：王书培，刘攀，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人