错句检测方法、装置及计算机可读存储介质制造方法及图纸

技术编号:22058712 阅读:39 留言:0更新日期:2019-09-07 16:34
本发明专利技术涉及语音语义技术领域,公开了一种错句检测方法,该方法包括:获取目标语句;识别目标语句包含的i个词语组成;将i个词语依据在目标语句中的顺序依次输入至预先训练的语言模型,通过语言模型计算目标语句的困惑度和/或对数似然概率;当目标语句的困惑度大于预设困惑度和/或目标语句的对数似然概率小于预设对数似然概率时,判断目标语句为错句。本发明专利技术还提出一种错句检测装置以及一种计算机可读存储介质。本发明专利技术可以对语句是否为错句进行识别。

Error Sentence Detection, Device and Computer Readable Storage Media

【技术实现步骤摘要】
错句检测方法、装置及计算机可读存储介质
本专利技术涉及语音语义
,尤其涉及一种错句检测方法、装置及计算机可读存储介质。
技术介绍
随着技术的发展,自动语音识别(AutomaticSpeechRecognition,ASR)技术的应用越来越广泛,ASR技术是一种将人的语音转换为文本的技术。ASR技术应用过程中,由于背景噪声的影响,或者说话人发音的影响,例如方言、口音、说话较快、用词用语习惯等,ASR识别结果中不可避免的会出现替换、插入或删除错误。这些识别错误会导致识别语句有可能存在词序不当、搭配不当、语义不明、语句不合逻辑等问题,形成错句。这些错句不仅理解和分析困难,而且给后续的自然语言处理(NaturalLanguageProcessing,NLP)应用带来了极大的困难。除了ASR技术得到的语句,手动在计算机中输入的语句也可能存在错误。因此,对语句的正确与否进行识别具有一定的现实意义和必要性。
技术实现思路
本专利技术提供一种错句检测方法、装置及计算机可读存储介质,其主要目的在于能够对语句是否为错句进行识别。为实现上述目的,本专利技术还提供一种错句检测方法,该方法包括:获取通过自动语音识别技术得到的目标语句;获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语,其中,i的初始值为1,i为正整数;若所述预设词典中不存在与所述第i段文字相匹配的词语,调整所述第i段文字的字数,判断所述预设词典中是否存在与所述第i段文字相匹配的词语;若所述预设词典中存在与所述第i段文字相匹配的词语,确定所述第i段文字为所述目标语句的第i个词语,令i=i+1,获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语;当i个词语的总字数与所述目标语句的总字数相同时,确定所述目标语句由所述i个词语组成;将所述i个词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型,通过所述语言模型计算所述目标语句的困惑度和/或对数似然概率;当所述目标语句的困惑度大于预设困惑度和/或所述目标语句的对数似然概率小于预设对数似然概率时,判断所述目标语句为错句。可选地,所述将所述i个词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型包括:判断所述i个词语中是否存在预设关键词;若所述i个词语中存在预设关键词,将所述i个词语中所述预设关键词以外的词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型。可选地,所述当所述目标语句的困惑度大于预设困惑度和/或所述目标语句的对数似然概率小于预设对数似然概率时,判断所述目标语句为错句之前,还包括:确定所述预设困惑度和/或确定所述预设对数似然概率;所述确定所述预设困惑度和/或确定所述预设对数似然概率具体包括:确定所述预设困惑度和/或确定所述预设对数似然概率,包括:获取用于训练所述语言模型的训练样本,所述训练样本包括正样本以及负样本;获取所述正样本的困惑度以及所述正样本的对数似然概率;以及获取所述负样本的困惑度以及所述负样本的对数似然概率;根据所述正样本的困惑度以及所述负样本的困惑度获取困惑度直方图,通过所述困惑度直方图获取所述预设困惑度;以及根据所述正样本的对数似然概率以及所述负样本的对数似然概率获取对数似然概率直方图,通过所述对数似然概率直方图获取所述预设对数似然概率。可选地,所述语言模型为深度学习语言模型或基于统计的语言模型。可选地,所述方法还包括:若所述目标语句为错句,发送错句提醒消息。此外,为实现上述目的,本专利技术还提供一种错句检测装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的错句检测程序,所述错句检测程序被所述处理器执行时实现如下步骤:获取通过自动语音识别技术得到的目标语句;获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语,其中,i的初始值为1,i为正整数;若所述预设词典中不存在与所述第i段文字相匹配的词语,调整所述第i段文字的字数,判断所述预设词典中是否存在与所述第i段文字相匹配的词语;若所述预设词典中存在与所述第i段文字相匹配的词语,确定所述第i段文字为所述目标语句的第i个词语,令i=i+1,获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语;当i个词语的总字数与所述目标语句的总字数相同时,确定所述目标语句由所述i个词语组成;将所述i个词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型,通过所述语言模型计算所述目标语句的困惑度和/或对数似然概率;当所述目标语句的困惑度大于预设困惑度和/或所述目标语句的对数似然概率小于预设对数似然概率时,判断所述目标语句为错句。可选地,所述将所述i个词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型包括:判断所述i个词语中是否存在预设关键词;若所述i个词语中存在预设关键词,将所述i个词语中所述预设关键词以外的词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型。可选地,所述错句检测程序被所述处理器执行,还实现如下步骤:当所述目标语句的困惑度大于预设困惑度和/或所述目标语句的对数似然概率小于预设对数似然概率时,判断所述目标语句为错句之前,确定所述预设困惑度和/或确定所述预设对数似然概率;所述确定所述预设困惑度和/或确定所述预设对数似然概率具体包括:获取用于训练所述语言模型的训练样本,所述训练样本包括正样本以及负样本;获取所述正样本的困惑度以及所述正样本的对数似然概率;以及获取所述负样本的困惑度以及所述负样本的对数似然概率;根据所述正样本的困惑度以及所述负样本的困惑度获取困惑度直方图,通过所述困惑度直方图获取所述预设困惑度;以及根据所述正样本的对数似然概率以及所述负样本的对数似然概率获取对数似然概率直方图,通过所述对数似然概率直方图获取所述预设对数似然概率。可选地,所述语言模型为深度学习语言模型或基于统计的语言模型。可选地,所述错句检测程序可被所述处理器执行,还实现如下步骤:若所述目标语句为错句,发送错句提醒消息。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有错句检测程序,所述错句检测程序可被一个或者多个处理器执行,以实现如上所述的错句检测方法的步骤。本专利技术提出的错句检测方法、装置及计算机可读存储介质,获取通过自动语音识别技术得到的目标语句;获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语,其中,i的初始值为1,i为正整数;若所述预设词典中不存在与所述第i段文字相匹配的词语,调整所述第i段文字的字数,判断所述预设词典中是否存在与所述第i段文字相匹配的词语;若所述预设词典中存在与所述第i段文字相匹配的词语,确定所述第i段文字为所述目标语句的第i个词语,令i=i+1,获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语;当i个词语的总字数与所述目标语句的总字数相同时,确定所述目标语句由所述i个词语组成;将所述i个词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型,通过所述语言模型计算所述目标语句的困惑度和/或对数似然概率;当所述目标语句的困惑度大于预设困惑度和/或所述目标本文档来自技高网...

【技术保护点】
1.一种错句检测方法,其特征在于,所述方法包括:获取通过自动语音识别技术得到的目标语句;获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语,其中,i的初始值为1,i为正整数;若所述预设词典中不存在与所述第i段文字相匹配的词语,调整所述第i段文字的字数,判断所述预设词典中是否存在与所述第i段文字相匹配的词语;若所述预设词典中存在与所述第i段文字相匹配的词语,确定所述第i段文字为所述目标语句的第i个词语,令i=i+1,获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语;当i个词语的总字数与所述目标语句的总字数相同时,确定所述目标语句由所述i个词语组成;将所述i个词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型,通过所述语言模型计算所述目标语句的困惑度和/或对数似然概率;当所述目标语句的困惑度大于预设困惑度和/或所述目标语句的对数似然概率小于预设对数似然概率时,判断所述目标语句为错句。

【技术特征摘要】
1.一种错句检测方法,其特征在于,所述方法包括:获取通过自动语音识别技术得到的目标语句;获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语,其中,i的初始值为1,i为正整数;若所述预设词典中不存在与所述第i段文字相匹配的词语,调整所述第i段文字的字数,判断所述预设词典中是否存在与所述第i段文字相匹配的词语;若所述预设词典中存在与所述第i段文字相匹配的词语,确定所述第i段文字为所述目标语句的第i个词语,令i=i+1,获取所述目标语句包含的第i段文字,判断预设词典中是否存在与所述第i段文字相匹配的词语;当i个词语的总字数与所述目标语句的总字数相同时,确定所述目标语句由所述i个词语组成;将所述i个词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型,通过所述语言模型计算所述目标语句的困惑度和/或对数似然概率;当所述目标语句的困惑度大于预设困惑度和/或所述目标语句的对数似然概率小于预设对数似然概率时,判断所述目标语句为错句。2.如权利要求1所述的错句检测方法,其特征在于,所述将所述i个词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型包括:判断所述i个词语中是否存在预设关键词;若所述i个词语中存在预设关键词,将所述i个词语中所述预设关键词以外的词语依据在所述目标语句中的顺序依次输入至预先训练的语言模型。3.如权利要求1或2所述的错句检测方法,其特征在于,所述当所述目标语句的困惑度大于预设困惑度和/或所述目标语句的对数似然概率小于预设对数似然概率时,判断所述目标语句为错句之前,还包括:确定所述预设困惑度和/或确定所述预设对数似然概率;所述确定所述预设困惑度和/或确定所述预设对数似然概率具体包括:获取用于训练所述语言模型的训练样本,所述训练样本包括正样本以及负样本;获取所述正样本的困惑度以及所述正样本的对数似然概率;以及获取所述负样本的困惑度以及所述负样本的对数似然概率;根据所述正样本的困惑度以及所述负样本的困惑度获取困惑度直方图,通过所述困惑度直方图获取所述预设困惑度;以及根据所述正样本的对数似然概率以及所述负样本的对数似然概率获取对数似然概率直方图,通过所述对数似然概率直方图获取所述预设对数似然概率。4.如权利要求2所述的错句检测方法,其特征在于,所述语言模型为深度学习语言模型或基于统计的语言模型。5.如权利要求1或2所述的错句检测方法,其特征在于,所述方法还包括:若所述目标语句为错句,发送错句提醒消息。6.一种错句检测装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的错句检测程序,所述错句检测程序被所...

【专利技术属性】
技术研发人员:张勇马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1