一种识别口语冗余成分的方法及装置制造方法及图纸

技术编号:30320688 阅读:20 留言:0更新日期:2021-10-09 23:38
本发明专利技术公开了一种识别口语冗余成分的方法及装置,方法包括:接收口语语料库和训练语料;将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。本发明专利技术能够解决现有技术中口语冗余成分界定不清以及误识别的问题。定不清以及误识别的问题。定不清以及误识别的问题。

【技术实现步骤摘要】
一种识别口语冗余成分的方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及识别口语冗余成分的方法及装置。

技术介绍

[0002]口语对话场景是自然语言处理领域中比较重要、常见的一项。在口语对话场景中,经过ASR(语音识别)转译之后,文本往往带有很多冗余成分。冗余成分典型的语气词或叹词、指代词、标点符号、重复成分等等,这些冗余内容会影响后续的自然语言理解,需要进行识别。但是,现有技术主要采用规则方法对语气词叹词、重复成分、标点符号进行识别,利用机器学习或深度学习模型对其他冗余成分进行识别,但是,规则方法一方面对冗余成分的界定不够清楚,容易出错;另一方面所用规则过于粗暴,某些冗余候选词并不是在所有场景中都需要被识别,规则方法无法做到动态判断。

技术实现思路

[0003]本专利技术的目的在于提供一种识别口语冗余成分的方法及装置,解决口语冗余成分界定不清以及误识别的问题。
[0004]实现上述目的的技术方案是:
[0005]本申请提供一种识别口语冗余成分的方法,包括:
[0006]接收口语语料库和训练语料;
[0007]将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
[0008]根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
[0009]根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
[0010]利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。
[0011]在一实施例中,所述根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型,包括:
[0012]汇总所述多余成分中的常规多余成分,获得通用词典;
[0013]汇总与预设场景相关的多余成分,获得自定义词典;
[0014]利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注;
[0015]使用标注后的训练语料进行训练,获得多余成分识别模型。
[0016]在一实施例中,所述利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注,包括:
[0017]根据通用词典,标识所述训练语料中的常规多余成分为第一符号;
[0018]根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号;
[0019]根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行
标注。
[0020]在一实施例中,所述多余成分包括:语气词、叹词、标点符号和指代成分。
[0021]在一实施例中,所述汇总与预设场景相关的多余成分,获得自定义词典之后,还包括:
[0022]若自定义词典包含适用于通用词典的常规多余成分,将该常规多余成分加入通用词典。
[0023]在一实施例中,所述根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型,包括:
[0024]根据所述重复成分,对训练语料中需要识别的重复成分进行标注;
[0025]使用标注后的训练语料进行训练,获得重复成分识别模型。
[0026]在一实施例中,所述根据重复成分,对训练语料中需要识别的重复成分进行标注,包括:
[0027]对训练语料进行分词,获得分词结果;
[0028]根据所述分词结果,标识所述训练语料中的重复成分为第三符号;
[0029]根据第二预设规则,对需要标注的所述第三符号对应的重复成分进行标注。。
[0030]在一实施例中,所述利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有口语冗余成分的口语文本,包括:
[0031]将待识别口语文本输入多余成分识别模型,获得标识有多余成分的口语文本;
[0032]将待识别口语文本输入重复成分识别模型,获得标识有重复成分的口语文本;
[0033]整合标识有多余成分的口语文本和标识有重复成分的口语文本,获得标识有冗余成分的口语文本。
[0034]在一实施例中,所述方法还包括:
[0035]将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;
[0036]根据所述出现概率,确定所述剔除冗余成分的口语文本的困惑度;
[0037]在所述困惑度超出预设闻值时,修正识别结果;
[0038]其中,所述困惑度表征文本通顺程度。
[0039]本申请提供一种识别口语冗余成分的装置,包括:
[0040]接收模块,接收口语语料库和训练语料;
[0041]冗余现象分类模块,将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;
[0042]多余成分识别模型训练模块,根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;
[0043]重复成分识别模型训练模块,根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;
[0044]口语冗余成分识别模块,利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本;
[0045]口语文本结构判断模块,将剔除冗余成分的口语文本输入语言模型,获得所述剔除冗余成分的口语文本中每个词的出现概率;根据所述出现概率,确定所述剔除冗余成分
的口语文本的困惑度;在所述困惑度超出预设闻值时,修正识别结果。
[0046]本申请上述实施例提供的技术方案,通过将对冗余成分分类为多余成分和重复成分,可以明确数据类型和内容,使得冗余成分界定清楚,有利于能力扩展,可以灵活处理不同领域的冗余成分识别任务,降低开发成本。采用规则(词典)+机器学习的方法对任务进行处理,尽量避免规则过于简单粗暴而造成误识别的情况,对丰富多样的自然语言有很好的适应性。从而能够有效识别口语对话文本的冗余成分,使口语文本更接近规范文本,减少不相干成分的干扰,方便后续分析。
附图说明
[0047]图1是本申请一实施例提供的识别口语冗余成分的方法的流程图;
[0048]图2是本申请一实施例中获取多余成分识别模型的流程图;
[0049]图3是本申请一实施例中获取重复成分识别模型的流程图;
[0050]图4是本申请另一实施例提供的识别口语冗余成分的方法的流程图;
[0051]图5是本申请另一实施例提供的识别口语冗余成分的方法的流程图;
[0052]图6是本申请实施例提供的识别口语冗余成分的装置的结构图;
[0053]图7是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0054]下面将结合附图对本专利技术作进一步说明。
[0055]在口语对话场景中,因为每个人的生活习惯、地域、性格以及普通话水平都不同的,每个人的口语几乎都不一样。口语对话内容在经过ASR转译之后,文本往往带有很多冗余成分。一些典型的冗余成分例如:
″<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别口语冗余成分的方法,其特征在于,包括:接收口语语料库和训练语料;将所述口语语料库中的冗余成分进行分类,获得多余成分和重复成分;根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型;根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型;利用多余成分识别模型和重复成分识别模型对口语文本进行识别,获得标识有冗余成分的口语文本。2.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述根据预设场景以及所述多余成分,对所述训练语料进行训练,获得多余成分识别模型,包括:汇总所述多余成分中的常规多余成分,获得通用词典;汇总与预设场景相关的多余成分,获得自定义词典;利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注;使用标注后的训练语料进行训练,获得多余成分识别模型。3.根据权利要求2所述的识别口语冗余成分的方法,其特征在于,所述利用所述通用词典和自定义词典对所述训练语料中需要识别的多余成分进行标注,包括:根据通用词典,标识所述训练语料中的常规多余成分为第一符号;根据自定义词典,标识所述训练语料中与预设场景相关的多余成分为第二符号;根据第一预设规则,对需要标注的所述第一符号和第二符号对应的多余成分进行标注。4.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述多余成分包括:语气词、叹词、标点符号和指代成分。5.根据权利要求2或3所述的识别口语冗余成分的方法,其特征在于,所述汇总与预设场景相关的多余成分,获得自定义词典之后,还包括:若自定义词典包含适用于通用词典的常规多余成分,将该常规多余成分加入通用词典。6.根据权利要求1所述的识别口语冗余成分的方法,其特征在于,所述根据所述重复成分,对所述训练语料进行训练,获得重复成分识别模型,包括:根据所述重复成分,对训练语料中需要识别的重复成分进行标注;使用标注后的训练语料进行训练,获得重复成分识别模型。7.根据权利要求6所述的识别...

【专利技术属性】
技术研发人员:简仁贤范敏苏畅吴文杰
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1