本发明专利技术公开一种电子装置及利用电子装置和服务器的语音识别执行方法。所述电子装置包括:处理器,利用存储于存储器中的语音识别模型而执行针对语音输入的自动语音识别(ASR;automatic speech recognition);以及通信模块,将所述语音输入提供给服务器,并从所述服务器接收对应于所述语音输入的语音命令,并且可根据针对自动语音识别的执行结果的可信度而执行不同的操作。此外,还可以实现能够通过说明书而掌握的多样的实施例。
【技术实现步骤摘要】
本专利技术的多种实施例涉及一种利用装载于电子装置的语音识别模型和可在服务器中利用的语音识别模型来识别用户的语音输入并执行语音命令的技术。
技术介绍
除利用键盘或鼠标的传统输入方式之外,最近的电子装置还可支持利用用户的语音(speech)的输入方式。例如,诸如智能手机或平板电脑的电子装置可对在特定功能(例如,S-Voice或Siri等)被执行的状态下输入的用户的语音进行分析而将该语音变换为文本,或者可执行对应于语音的操作。此外,一些电子装置中语音识别功能一直被激活(always-on),因此随时可根据用户的语音而被唤醒(awake)、解除锁定(unlocked)、或者可执行诸如互联网检索、通话或SMS/E-mail阅读的功能。
技术实现思路
虽然已知与语音识别相关联的多样的研宄和技术,但是在电子装置中执行语音识别的方法只能是局限性的。例如,电子装置为了实现针对语音输入的迅速的响应而可以利用自行装载于电子装置的语音识别模型。然而,电子装置的存储空间和处理能力有限,由此导致可识别的语音输入的数量或种类也有限。为了针对语音输入而获得较为准确且确切的结果,电子装置可将语音输入传送给服务器而请求语音识别,并提供从服务器回复的结果,或者可基于回复的结果而执行特定操作。然而,这一方法增加电子装置的通信使用量,并带来相对较慢的响应速度。本说明书中公开的多样的实施例可提供一种语音识别执行方法,其利用两种以上的互不相同的语音识别能力或语音识别模型,来改善在前述的各种情况下可能发生的低效率,并且可以给用户提供快的响应速度和高的准确性。根据本专利技术的多样的实施例的一种电子装置,可包括:处理器,利用存储于存储器中的语音识别模型而执行针对语音输入的自动语音识别(ASR ;automatic speechrecognit1n);以及通信模块,将所述语音输入提供给服务器,并从所述服务器接收对应于所述语音输入的语音命令。其中,所述处理器(I)在所述自动语音识别的执行结果的可信度为第一临界值以上的情况下可执行对应于所述自动语音识别的执行结果的操作,(2)在所述自动语音识别的执行结果的可信度小于第二临界值的情况下可提供针对所述可信度的反馈。根据本专利技术的多样的实施例,利用自行装载于电子装置的语音识别模型而执行语音识别,并基于其语音识别结果而补充利用通过服务器的语音识别结果,从而可以提供具有快的响应速度和高的准确性的语音识别功能。此外,可将利用电子装置和服务器的语音识别结果进行比较,并基于比较结果而在语音识别模型或语音识别算法中予以反映。据此,准确率和响应速度可随着语音识别的反复执行而越来越持续地得到改善。【附图说明】图1表示根据本专利技术的一个实施例的电子装置以及通过网络与电子装置连接的服务器。图2表示根据本专利技术的另一实施例的电子装置和服务器。图3表示根据本专利技术的一个实施例的语音识别执行方法的流程图。图4表示根据本专利技术的另一实施例的语音识别执行方法的流程图。图5表示根据本专利技术的一个实施例的更新临界值的方法的流程图。图6表示根据本专利技术的一个实施例的更新语音识别模型的方法的流程图。图7表示根据本专利技术的一个实施例的网络环境内的电子装置。图8表示根据本专利技术的一个实施例的电子装置的框图。【具体实施方式】以下,参考附图记载本专利技术的多样的实施例。然而,这不是为了将本专利技术限定在特定的实施方式,应该理解为本专利技术包括对实施例进行的多样的变更、均等物和/或替代物。关于对附图的说明,对类似的构成要素可使用类似的附图标记。在本说明书中,“具有”、“可具有”、“包括”或“可包括”等表述用于表示相关特征(例如,数值、功能、操作或部件等构成要素)的存在,其并不排除附加性的特征的存在。在本说明书中,“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或一个以上”等表述可包括一并罗列的项目的所有可能的组合。例如,“A或B”、“A和B中的至少一个”或“A或B中的至少一个”可以指:(1)包括至少一个A的情形;(2)包括至少一个B的情形;或(3)将至少一个A和至少一个B都包括的情形。在多样的实施例中使用的“第一”、“第二”、“首先”或“其次”等表述可以与顺序和/或重要程度无关地修饰多样的构成要素,且并不限定相关构成要素。例如,第一用户设备和第二用户设备可以与顺序或重要程度无关地表示互不相同的用户设备。例如,在不脱离本专利技术的权利范围的前提下,第一构成要素可命名为第二构成要素,类似地,第二构成要素也可以更名为第一构成要素。当提到某一构成要素(例如,第一构成要素)(以功能方式或通信方式)连接到((operatively or communicatively) coupled with/to)或接入到(connected to)另一构成要素(例如,第二构成要素)时,应理解为所述某一构成要素直接连接到所述另一构成要素,或者通过其他构成要素(例如,第三构成要素)连接到所述另一构成要素。相反,当提到某一构成要素(例如,第一构成要素)“直接连接到”或“直接接入到”另一构成要素(例如,第二构成要素)时,可理解为所述某一构成要素与所述另一构成要素之间并不存在其他构成要素(例如,第三构成要素)。本说明书中使用的“构成为(或设置为)(configured to)...”这一表述可根据情况与例如“适合于(suitable for)...”、“具备…能力的(having the capacity to),,、“设计为(designed to)...”、“变更为(adapted to)...”、“制造为(made to)...”或“能够(capable of)...”等互换使用。“构成为(或设置为)”这一术语并不局限于表示以硬件方式“特别设计(specifically designed to)”。在某些情况下,“构成为…的装置”这一表述可以表示该装置能够与其他装置或部件一起构成。例如,句子“构成(或设置)为执行A、B和C的处理器”可表示用于执行相关操作的专用处理器(例如,嵌入式处理器)或通用处理器(generic-purpose processor)(例如,CPU 或应用处理器(applicat1n processor)),其中所述通用处理器可通过执行存储于存储器装置的一个以上的软件程序而执行相关操作。本说明书中使用的术语只是用于说明特定的实施例,并非旨在限定其他实施例的范围。只要在文脉上并不表示明确不同的含义,则单数的表述也可以包含复数的表述。包括技术或科学方面的术语在内,这里使用的所有术语可具有与本专利技术所属的
中具有普通知识的人员通常理解的含义相同的含义。通常使用的定义于词典中的术语可被解释为具有与相关技术在文脉上具有的含义相同或者类似的含义,只要没有在本说明书中明确定义,就不会被解释为理想化或者过于形式化的含义。根据情况,即使是本说明书中定义的术语,也不能被解释为排除本专利技术的实施例。尤其,在一些实施例中,大于关系(“>”)可互换为大于等于关系(“彡”)。以下,参考附图而说明根据多样的实施例的电子装置。在本说明书中,用户可以指使用电子装置的人或使用电子装置的设备(例如,人工智能电子设备)。图1表示根据本专利技术的一个实施例的电子装置以及通过网络与电子装置连接的服务器。参考图1,电本文档来自技高网...
【技术保护点】
一种电子装置,包括:处理器,利用存储于存储器中的语音识别模型而执行针对语音输入的自动语音识别;以及通信模块,将所述语音输入提供给服务器,并从所述服务器接收对应于所述语音输入的语音命令,其中,所述处理器在所述自动语音识别的执行结果的可信度为第一临界值以上的情况下执行对应于所述自动语音识别的执行结果的操作,而在所述自动语音识别的执行结果的可信度小于第二临界值的情况下提供针对所述可信度的反馈。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:郑晳荣,金炅泰,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:韩国;KR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。