一种识别口语冗余成分的方法及装置制造方法及图纸

技术编号：30320688 阅读：21 留言：0更新日期：2021-10-09 23:38

本发明专利技术公开了一种识别口语冗余成分的方法及装置，方法包括：接收口语语料库和训练语料；将所述口语语料库中的冗余成分进行分类，获得多余成分和重复成分；根据预设场景以及所述多余成分，对所述训练语料进行训练，获得多余成分识别模型；根据所述重复成分，对所述训练语料进行训练，获得重复成分识别模型；利用多余成分识别模型和重复成分识别模型对口语文本进行识别，获得标识有冗余成分的口语文本。本发明专利技术能够解决现有技术中口语冗余成分界定不清以及误识别的问题。定不清以及误识别的问题。定不清以及误识别的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别口语冗余成分的方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及识别口语冗余成分的方法及装置。

技术介绍

[0002]口语对话场景是自然语言处理领域中比较重要、常见的一项。在口语对话场景中，经过ASR(语音识别)转译之后，文本往往带有很多冗余成分。冗余成分典型的语气词或叹词、指代词、标点符号、重复成分等等，这些冗余内容会影响后续的自然语言理解，需要进行识别。但是，现有技术主要采用规则方法对语气词叹词、重复成分、标点符号进行识别，利用机器学习或深度学习模型对其他冗余成分进行识别，但是，规则方法一方面对冗余成分的界定不够清楚，容易出错；另一方面所用规则过于粗暴，某些冗余候选词并不是在所有场景中都需要被识别，规则方法无法做到动态判断。

技术实现思路

[0003]本专利技术的目的在于提供一种识别口语冗余成分的方法及装置，解决口语冗余成分界定不清以及误识别的问题。
[0004]实现上述目的的技术方案是：
[0005]本申请提供一种识别口语冗余成分的方法，包括：
[0006]接收口语语料库和训练语料；
[0007]将所述口语语料库中的冗余成分进行分类，获得多余成分和重复成分；
[0008]根据预设场景以及所述多余成分，对所述训练语料进行训练，获得多余成分识别模型；
[0009]根据所述重复成分，对所述训练语料进行训练，获得重复成分识别模型；
[0010]利用多余成分识别模型和重复成分识别模型对口语文本进行识别，获得标识有冗余成分的口...

【技术保护点】

【技术特征摘要】
1.一种识别口语冗余成分的方法，其特征在于，包括：接收口语语料库和训练语料；将所述口语语料库中的冗余成分进行分类，获得多余成分和重复成分；根据预设场景以及所述多余成分，对所述训练语料进行训练，获得多余成分识别模型；根据所述重复成分，对所述训练语料进行训练，获得重复成分识别模型；利用多余成分识别模型和重复成分识别模型对口语文本进行识别，获得标识有冗余成分的口语文本。2.根据权利要求1所述的识别口语冗余成分的方法，其特征在于，所述根据预设场景以及所述多余成分，对所述训练语料进行训练，获得多余成分识别模型，包括：汇总所述多余成分中的常规多余成分，获得通用词典；汇总与预设场景相关的多余成分，获得自定义词典；利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注；使用标注后的训练语料进行训练，获得多余成分识别模型。3.根据权利要求2所述的识别口语冗余成分的方法，其特征在于，所述利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注，包括：根据通用词典，标识所述训练语料中的常规多余成分为第一符号；根据自定义词典，标识所述训练语料中与预设场景相关的多余成分为第二符号；根据第一预设规则，对需要标注的所述第一符号和第二符号对应的多余成分进行标注。4.根据权利要求1所述的识别口语冗余成分的方法，其特征在于，所述多余成分包括：语气词、叹词、标点符号和指代成分。5.根据权利要求2或3所述的识别口语冗余成分的方法，其特征在于，所述汇总与预设场景相关的多余成分，获得自定义词典之后，还包括：若自定义词典包含适用于通用词典的常规多余成分，将该常规多余成分加入通用词典。6.根据权利要求1所述的识别口语冗余成分的方法，其特征在于，所述根据所述重复成分，对所述训练语料进行训练，获得重复成分识别模型，包括：根据所述重复成分，对训练语料中需要识别的重复成分进行标注；使用标注后的训练语料进行训练，获得重复成分识别模型。7.根据权利要求6所述的识别...

【专利技术属性】
技术研发人员：简仁贤，范敏，苏畅，吴文杰，
申请(专利权)人：竹间智能科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人