语音输入方法和装置制造方法及图纸

技术编号:8718266 阅读:207 留言:0更新日期:2013-05-17 19:53
本发明专利技术实施例提供一种语音输入方法和装置,涉及语音信号处理领域。为解决现有技术语音输入复杂的问题而发明专利技术。本发明专利技术实施例提供的技术方案包括:对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示;接收用户在所述初始语音信息后输入的二次语音信息;判断所述二次语音信息是否指示修改;如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。该方案可以应用在电脑、手机等用户终端上。

【技术实现步骤摘要】

本专利技术涉及语音信号处理领域,尤其涉及一种语音输入方法和装置
技术介绍
近年来,随着语音识别技术的发展,用户可以通过语音指令实现移动设备的操控,也可以通过语音实现文字的编辑输入等。其中,系统可以通过对用户输入的语音信号进行语音识别,并显示识别结果实现文字的编辑输入。然而,当用户输入语音信号中存在同音字或者有噪声等干扰时,识别结果的全部或部分可能出错;此时用户需要手动删除错误的部分后重新输入,操作复杂。
技术实现思路
本专利技术的实施例提供一种语音输入方法和装置,能够简化用户的操作。—方面,提供一种语音输入方法,包括:对用户输入的初始语音信息进行语音识另IJ,得到首次识别结果后显示;接收用户在所述初始语音信息后输入的二次语音信息;判断所述二次语音信息是否指示修改;如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。另一方面,提供一种语音输入装置,包括:第一显示单元,用于对用户输入的初始语音信息进行语音识别,得到首次识别结果后显不;语音接收单元,用于接收用户在所述初始语音信息后输入的二次语音信息;指示确认单元,用于判断所述二次语音信息是否指示修改;修改显示单元,用于如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。本专利技术实施例提供的语音输入方法和装置,当用户在初始语音信息后输入的二次语音信息指示修改时,可以直接根据用户输入的二次语音信息对首次识别结果进行修改后显示,从而实现语音输入。本专利技术实施例提供的技术方案,解决了现有技术中用户需要手动删除错误的部分后重新输入,操作复杂的问题,能够提高语音输入的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的语音输入方法的流程图;图2为本专利技术实施例二提供的语音输入方法的流程图;图3为本专利技术实施例二提供的语音输入方法的示意图一;图4为本专利技术实施例二提供的语音输入方法的示意图二 ;图5为本专利技术实施例三提供的语音输入装置的结构示意图一;图6为图5所示的语音输入装置中指示确认单元的结构示意图一;图7为图5所示的语音输入装置中指示确认单元的结构示意图二 ;图8为本专利技术实施例三提供的语音输入装置的结构示意图二。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种语音输入方法和装置,能够解决现有技术语音输入复杂的问题。实施例一:如图1所示,本专利技术实施例提供的语音输入方法,包括:步骤101,对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示。在本实施例中,用户需要通过语音输入文字时,可以按下语音输入装置上的启动按钮,使语音输入装置可以通过麦克风接收用户输入的语音信息。在首次接收到用户输入的初始语音信息时,可以对该初始语音信息进行语音识别,得到首次识别结果。为了使本专利技术实施例提供的语音输入方法适用范围更广,能够识别出不同领域、不同口音的用户语音信息,在本实施例中,步骤101可以采用非特定人语音识别技术对用户输入的初始语音信息进行识别、解析,得到首次识别结果。在本实施例中,步骤101可以以常规状态显示首次识别结果;为了便于用户使用,也可以以待确认状态显示首次识别结果,在此不作限制。其中,以待确认状态显示首次识别结果可以为以覆盖浮层的方式显示,也可以为以闪烁的方式显示。其中,以覆盖浮层的方式显示,可以与突出显示的方式类似,在此不再一一赘述。在本实施例中,以待确认状态显示首次识别结果时,用户可以对待确认状态的文字进行修改。为了避免需要输入同音词时,语音输入装置的误修改,可以在首次语音信息后预设时间内没有新的语音输入时,将待确认状态的文字标记为确认状态,如去掉覆层、取消闪烁等。步骤102,接收用户在初始语音信息后输入的二次语音信息。在本实施例中,语音输入装置通过步骤101显示首次识别结果后,如果用户需要对首次识别结果中部分或全部文字进行修改、或者需要继续输入其他文字,可以再次按下语音输入装置上的启动按钮,使语音输入装置可以通过麦克风接收用户输入的二次语音信肩、O步骤103,判断该二次语音信息是否指示修改。在本实施例中,语音输入装置通过步骤102接收到用户输入的二次语音信息后,需要首先通过步骤103判断该二次语音信息是用户需要对首次识别结果进行修改而输入的还是用户需要继续输入其他文字而输入的。具体的,通过步骤103判断该二次语音信息是否指示修改的过程可以包括:将该二次语音信息与初始语音信息进行音频比对,得到相似度值;根据相似度值与预设的阈值的关系判断该二次语音信息是否指示修改。其中,将该二次语音信息与初始语音信息进行音频比对可以为提取音频特征参数实现音频比对,该提取音频特征参数的过程可以包括:首先利用小波变换分别将初始语音信息和二次语音信息进行压缩,得到初始压缩语音和二次压缩语音,该小波变换方法优选为哈尔小波变换,也可以为其他方法,在此不作限制;然后采用“音频帧”的方法分别提取初始压缩语音和二次压缩语音的音频特征参数,得到初始音频参数和二次音频参数,该音频特征参数优选为质心、均方根、Mel倒谱参数等;最后将初始音频参数和二次音频参数分别进行欧式距离计算,得到相似距离后,根据相似距离确定相似度值。也可以将首次语音信息和二次语音信息的音频同时转换为相同的时间轴模型,再利用图形识别技术实现音频比对;还可以通过其他方式实现二次语音信息与初始语音信息的音频比对,在此不再一一赘述。通过步骤103判断该二次语音信息是否指示修改的过程也可以包括:首先对二次语音信息进行语义分析,得到分析结果;然后根据分析结果判断该二次语音信息是否指示修改。其中,对二次语音进行语义分析,可以为判断二次语音信息中是否包含“将. 替换为. ”、“在. 位置添加. ”等;也可以通过其他方式对二次语音进行语义分析,在此不再一一赘述。在本实施例中,通过音频比对、语义分析方法判断该语音信息是否指示修改,语音输入装置既可以根据用户需要选择上述方法中的一种,也可以将上述方法结合,能够方便用户使用;使用户需要对已输入的文字进行修改时,既可以通过重复需要修改部分的语音实现修改,也可以通过输入含有修改语义的语音(如将X修改为1,或在X后边添加I等)实现修改,无需用户进行手动删除等操作,方便用户使用,并且能够提高语音输入的效率。步骤104,如果指示,根据该二次语音信息对首次识别结果进行修改后显示。在本实施例 中,如果步骤103通过音频比对判断是否指示修改,步骤104根据该二次语音信息对首次识别结果进行修改可以包括:首先对二次语音信息进行语音识别,得到至少一个二次识别结果;然后从至少一个二次识别结果中获取目标识别结果;最后根据目标识别结果对首次识别结果进行修改后显示。如果步骤103通过语义分析判断是否指示修改,步骤104根据该二次语音本文档来自技高网...

【技术保护点】
一种语音输入方法,其特征在于,包括:对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示;接收用户在所述初始语音信息后输入的二次语音信息;判断所述二次语音信息是否指示修改;如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。

【技术特征摘要】
1.一种语音输入方法,其特征在于,包括: 对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示; 接收用户在所述初始语音信息后输入的二次语音信息; 判断所述二次语音信息是否指示修改; 如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。2.根据权利要求1所述的语音输入方法,其特征在于,所述判断所述二次语音信息是否指示修改,包括: 将所述二次语音信息与所述初始语音信息进行音频比对,得到相似度值; 根据所述相似度值与预设的阈值的关系判断所述二次语音信息是否指示修改。3.根据权利要求2所述的语音输入方法,其特征在于,所述将所述二次语音信息与所述初始语音信息进行音频比对,得到相似度值的步骤,包括: 分别将所述初始语音信息和所述二次语音信息进行压缩,得到初始压缩语音和二次压缩语音; 分别提取所述初始压缩语音和所述二次压缩语音的音频特征参数,得到初始音频参数和二次音频参数; 将所述初始音频参数和所述二次音频参数分别进行欧式距离运算,得到相似距离; 根据所述相似距离确定相似度值。4.根据权利要求2所述的语音输入方法,其特征在于,所述根据所述二次语音信息对所述首次识别结果进行修改后显示,包括: 对所述二次语音信息进行语音识别,得到至少一个二次识别结果; 从所述至少一个二次识别结果中获取目标识别结果; 根据所述目标识别结果对所述首次识别结果进行修改后显示。5.根据权利要求1所述的语音输入方法,其特征在于,所述判断所述二次语音信息是否指示修改,包括: 对所述二次语音信息进行语义分析,得到分析结果; 根据所述分析结果判断所述二次语音信息是否指示修改。6.根据权利要求5所述的语音输入方法,其特征在于,所述根据所述二次语音信息对所述首次识别结果进行修改后显示,包括: 根据所述分析结果获取修改位置和目标语音信息; 对所述目标语音信息进行语音识别,得到至少一个二次识别结果; 从所述至少一个二次识别结果中获取目标识别结果; 根据所述目标识别结果和所述修改位置对所述首次识别结果进行修改后显示。7.根据权利要求4或6所述的语音输入方法,其特征在于,所述从所述至少一个二次识别结果中获取目标识别结果,包括: 根据所述至少一个二次识别结果的使用频率获取目标识别结果;或者, 根据所述至少一个二次识别结果与所述首次识别结果的关联度获取目标识别结果。8.根据权利要求1所述的语音输入方法,其特征在于,所述得到首次识别结果后显示,包括: 得到首次识别结果后以覆盖浮层的方式显示; 或者得到首次识别结果后以闪烁的方式显示。9.根据权利要求1所述的语音输入方法,其特征在于,如果未指示,还包括: 对所述二次语音信息进行语音识别,得到二次识别结果; 在所述首次识别结果后显示所述二次识别结果。10.一种语音输入装置,其特征在于,包括: 第一显示单元,用于对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示; 语音接收单元,用于接收用户在所...

【专利技术属性】
技术研发人员:张然邵颖王力劭
申请(专利权)人:北京车音网科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1