基于特征的话语码本选择制造技术

技术编号:21841318 阅读:46 留言:0更新日期:2019-08-10 21:39
一种设备包含话语处理引擎,所述话语处理引擎经配置以接收对应于话语的数据并且以确定与所述话语相关联的第一特征是与参考特征相差至少阈值量。所述设备进一步包含响应于所述话语处理引擎的选择电路。所述选择电路经配置以基于所述第一特征与所述参考特征相差至少阈值量从多个话语码本之中选择特定话语码本。所述特定话语码本与所述第一特征相关联。此第一特征是基于所述用户的情绪、所述用户的环境和所述用户的估计的年龄或距离麦克风的所述用户的估计的距离的。

Feature-based Codebook Selection

【技术实现步骤摘要】
【国外来华专利技术】基于特征的话语码本选择优先权的主张本申请主张2017年1月12日递交的标题为“基于特征的话语码本选择(CHARACTERISTIC-BASEDSPEECHCODEBOOKSELECTION)”的第15/405,159号共同拥有的美国非临时专利申请的优先权,前述申请的内容明确地以全文引用的方式并入本文中。
本专利技术大体上涉及电子装置,且更确切地说,涉及通过电子装置的音频信号的处理。
技术介绍
电子装置(例如,移动装置或服务器)可基于用户的话语接收数据。举例来说,数据可包含话语的样本。电子装置可使用数据结合一或多个基于话语的操作。为了说明,电子装置可基于数据识别话语内的命令,例如,“导航回家”。作为另一实例,电子装置可识别用户的身份,例如,通过匹配数据的频谱和与用户相关联的信息。在一些情况下,基于话语的操作可能引发时延和过量的功率消耗。举例来说,背景噪声可能抑制电子装置识别命令,当电子装置重新尝试识别命令时引起时延和过量的功率消耗。在一些情况下,用户可能被提示再次说出命令或使用图形用户接口输入命令。
技术实现思路
在说明性实例中,设备包含经配置以接收对应于话语的数据的话语处理引擎。话语处理引擎进一步经配置以确定与话语相关联的第一特征是否与参考特征相差至少阈值量。设备进一步包含响应于话语处理引擎的选择电路。选择电路经配置以基于第一特征与参考特征相差至少阈值量从多个话语码本之中选择特定话语码本。特定话语码本与第一特征相关联。在另一说明性实例中,选择话语码本的方法包含接收对应于话语的数据。方法进一步包含基于与话语相关联的第一特征与参考特征相差至少阈值量从多个话语码本之中选择特定话语码本。特定话语码本与第一特征相关联。在另一说明性实例中,设备包含用于接收对应于话语的数据并且用于确定与话语相关联的第一特征是否与参考特征相差至少阈值量的装置。设备进一步包含用于基于第一特征与参考特征相差至少阈值量从多个话语码本之中选择特定话语码本的装置。特定话语码本与第一特征相关联。在另一说明性实例中,一种计算机可读存储媒体存储指令,所述指令在由处理器执行时使得处理器执行操作。操作包含接收对应于话语的数据。操作进一步包含基于与话语相关联的第一特征与参考特征相差至少阈值量的从多个话语码本之中选择特定话语码本。特定话语码本与第一特征相关联。附图说明图1是包含话语处理引擎和选择电路的装置的说明性实例的图式。图2是说明例如包含图1的装置的系统的系统的操作的实例的图式。图3是说明可使用图1的装置执行的过程的操作的图式。图4是说明训练方案的操作的图式。图5是图1的装置的说明性操作方法的图式。图6是包含图1的装置的电子装置的说明性实例的框图。图7是包含图1的装置的基站的说明性实例的框图。具体实施方式本专利技术的方面涉及基于话语的一或多个检测到的特征执行的基于话语的操作(例如,说话者识别或语音识别)。为了说明,一或多个处理操作可以是基于特征“定制的”,例如,作为说明性实例,通过话语指示的情绪、说话者的估计的年龄、说话者的说话风格,或从说话者到麦克风的估计的距离。在特定实例中,特定话语码本是基于话语的一或多个特征选择的,并且话语是使用特定话语码本编码或解码的(例如,以根据话语的特定特征“定制”编码或解码)。与话语相关联的特征可以是通过确定话语与参考特征之间的差异检测到的,所述参考特征例如,“平均值”或“普通”话语特征。在说明性实施方案中,深度神经网络(DNN)模型包含输入节点的集合和输出节点的集合。每个输出节点可对应于话语特征。对于每个输出节点,DNN模型可将分类概率分配到话语,其中分类概率指示话语具有特定特征的可能性。话语特征可以是基于分类概率而确定的。下文参考图式描述其它说明性方面。参考图1,描绘了装置并且一般将其表示为100。在一些实施方案中,装置100的方面可以在移动装置内实施,如进一步参考图6所描述。替代地或另外,装置100的方面可以在基站内实施,如进一步参考图7所描述。替代地或另外,装置100的方面可以在另一装置内实施,例如,作为说明性实例,服务器。装置100包含话语处理引擎104。在说明性实例中,话语处理引擎104耦合到一或多个麦克风或经配置以接收表示一或多个声学信号的数据102,例如,一或多个话语信号。举例来说,数据102可对应于用户的话语。装置100进一步包含选择电路106。选择电路106可以耦合到话语处理引擎104。作为说明性实例,选择电路106可包含多路复用器(MUX)电路。装置100可进一步包含存储器118。取决于特定实施方案,存储器118可包含易失性存储器、非易失性存储器,或其组合。存储器118可经配置以存储多个话语码本108。举例来说,多个话语码本108可包含远场话语码本110、近场话语码本112、基于情绪的话语码本114(例如,“愤怒的”话语码本)或普通话语码本116(例如,“默认”话语码本)中的至少一个。如本文中所使用,“话语码本”可以指针对数据输入的集合的每个数据输入指示一或多个数据输出结合例如编码操作、解码操作或两者的译码操作的信息(例如,数据结构)。装置100可进一步包含话语译码器/解码器(编解码器)124。话语编解码器124可以耦合到存储器118。举例来说,话语编解码器124可经配置以从存储器118接收一或多个话语码本。话语编解码器124可经配置以接收数据102(例如,表示到装置100的话语输入的数据)。装置100可进一步包含调谐引擎120、语音识别引擎122或说话者识别引擎126中的一或多个。调谐引擎120可以响应于话语处理引擎104并且可以耦合到语音识别引擎122和说话者识别引擎126。装置100可进一步包含定制引擎128或用户状态依赖性活动起始器130中的一或多个。定制引擎128可以耦合到话语处理引擎104并且耦合到用户状态依赖性活动起始器130。在图1的说明性实例中,用户状态依赖性活动起始器130包含家庭助理132和客户服务拨号器134。在操作期间,话语处理引擎104接收数据102。话语处理引擎104可经配置以识别对应于数据102的话语的至少第一特征140。在特定实例中,话语处理引擎104经配置以使用深度神经网络(DNN)模型144识别第一特征140。举例来说,DNN模型144可包含输入节点的集合、输出节点的集合,以及隐藏节点的集合。每个输出节点可对应于话语特征。对于每个输出节点,DNN模型144可将分类概率分配到话语,其中分类概率指示话语具有特定特征的可能性。第一特征140可以是基于分类概率而确定的。DNN模型144可基于噪声特征或与数据102相关联的频谱中的一或多个对话语进行分类。取决于特定实例,数据102可包含经编码数据或经解码数据,并且可以使用经编码数据或经解码数据检测到第一特征140。举例来说,在一些实施方案中,参考特征142可对应于特征的经编码表示,并且话语处理引擎104可比较数据102的经编码数据与特征的经编码表示。作为另一实例,在一些实施方案中,参考特征142可对应于特征的经解码(或非经编码)表示,并且话语处理引擎104可比较数据102的经解码(或非经编码)数据与特征的经解码表示。第一特征140可对应于与基于数据102的话语相关联的质量特征或可基于与基于数据102的话语相关联的质量特征本文档来自技高网...

【技术保护点】
1.一种设备,其包括:话语处理引擎,其经配置以接收对应于话语的数据并且以确定与所述话语相关联的第一特征是否与参考特征相差至少阈值量;以及选择电路,其响应于所述话语处理引擎并且经配置以基于所述第一特征与所述参考特征相差至少所述阈值量从多个话语码本之中选择特定话语码本,所述特定话语码本与所述第一特征相关联。

【技术特征摘要】
【国外来华专利技术】2017.01.12 US 15/405,1591.一种设备,其包括:话语处理引擎,其经配置以接收对应于话语的数据并且以确定与所述话语相关联的第一特征是否与参考特征相差至少阈值量;以及选择电路,其响应于所述话语处理引擎并且经配置以基于所述第一特征与所述参考特征相差至少所述阈值量从多个话语码本之中选择特定话语码本,所述特定话语码本与所述第一特征相关联。2.根据权利要求1所述的设备,其进一步包括耦合到所述选择电路的存储器,所述存储器经配置以存储所述多个话语码本。3.根据权利要求1所述的设备,其进一步包括话语译码器/解码器(编解码器),所述话语译码器/解码器经配置以使用所述特定话语码本对所述数据进行编码,以使用所述特定话语码本对所述数据进行解码,或这两者。4.根据权利要求1所述的设备,其中所述话语处理引擎进一步经配置以使用深度神经网络DNN模型识别所述第一特征。5.根据权利要求1所述的设备,其中所述第一特征是基于产生所述话语的用户的情绪、所述用户的环境、所述用户的估计的年龄,或距离麦克风的所述用户的估计的距离的。6.根据权利要求5所述的设备,其中所述环境对应于建筑物的类型、建筑物的特定房间或车辆中的一或多个。7.根据权利要求1所述的设备,其中所述多个话语码本包含远场话语码本、近场话语码本、基于情绪的话语码本或普通话语码本中的至少一个。8.根据权利要求1所述的设备,其进一步包括:天线;以及收发器,其耦合到所述天线并且经配置以接收基于所述数据的经编码音频信号,以发射所述经编码音频信号,或这两者。9.根据权利要求8所述的设备,其中话语处理引擎、所述选择电路、所述收发器和所述天线被集成到移动装置或基站中。10.一种在装置处选择话语码本的方法,所述方法包括:在装置处接收数据,所述数据对应于话语;以及基于与所述话语相关联的第一特征与参考特征相差至少阈值量,通过所述装置从多个话语码本之中选择特定话语码本,所述特定话语码本与所述第一特征相关联。11.根据权利要求10所述的方法,其中所述第一特征是基于产生所述话语的用户的情绪的。12.根据权利要求10所述的方法,其中所述第一特征是基于产生所述话语的用户的环境的,所述环境对应于建筑物的类型、建筑物的特定房间或车辆中的一或多个。13.根据权利要求10所述的方法,其中所述第一特征是基于产生所述话语的用户的估计的年龄的。14.根据权利要求10所述的方法,其中所述第一特征是基于距离麦克风的用户的估计的距离的。15.根据权利要求10所述的方法,其进一步包括使用深度神经网络DNN模型识别所述第一特征。16.根据权利要求10所述的方法,...

【专利技术属性】
技术研发人员:郭寅一E·维瑟
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1