用于发送和接收音频数据的方法和设备技术

技术编号:22083483 阅读:29 留言:0更新日期:2019-09-12 16:59
一种人工智能(AI)系统,被配置为通过使用机器学习算法(诸如深度学习等)及其应用来模拟人脑的功能(诸如识别、确定等)。该AI系统包括由设备执行的向另一设备发送音频数据和从另一设备接收音频数据的方法,该方法包括获得由该设备的第一用户输入的语音输入,获得指示获得的语音输入的含义的识别信息,将获得的语音输入发送到另一设备,确定是否发生异常情形,在该异常情形中另一设备的第二用户不理解所发送的语音输入,以及基于确定的结果将获得的识别信息发送到另一设备。

Method and equipment for transmitting and receiving audio data

【技术实现步骤摘要】
【国外来华专利技术】用于发送和接收音频数据的方法和设备
本公开涉及一种用于发送和接收音频数据的方法和设备。更具体地,本公开涉及一种用于向另一设备提供指示用户的语音输入的含义的识别信息的方法和设备。
技术介绍
人工智能(AI)系统是能够模拟人类智能的计算机系统。不同于先前的基于规则的智能系统,AI系统执行自我学习和确定,从而变得更聪明。AI系统使用得越多,AI系统的识别率就变得越高并且用户的品味就变得更准确。因此,先前的基于规则的智能系统已经逐渐被基于深度学习的AI系统所取代。AI技术包括机器学习(深度学习)和利用机器学习的元素技术(elementtechnology)。机器学习是一种对输入数据的特征进行自分类和学习的算法技术。元素技术是一种被配置为通过使用机器学习算法(诸如深度学习等)模拟人脑的功能(诸如识别、确定等)的技术,并且包括语言理解、视觉理解、推理/预测、知识表达、操作控制等。应用AI技术的各种领域如下。语言理解是一种识别和应用/处理人类语言/字符的技术,并且包括自然语言处理、机器翻译、会话系统、问答、语音识别/合成等。视觉理解是一种像人类视觉一样识别和处理对象的技术,并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等。推理/预测是一种确定以及逻辑推断和预测信息的技术,并且包括基于知识/概率的推理、优化预测、基于偏好的规划、推荐等。知识表达是一种执行自动化以将人类的经验信息转换成知识数据的技术,并且包括知识建立(数据生成/分类)、知识管理(数据利用)等。操作控制是一种控制车辆自主驾驶和机器人运动的技术,并且包括运动控制(转向方法、碰撞、驾驶)、操纵控制(行为控制)等。
技术实现思路
技术问题随着多媒体技术和网络技术的发展,用户已经能够通过使用设备来接收各种服务。特别地,随着语音识别技术的发展,用户可以向设备提供语音输入,并且设备可以将用户的语音输入转换成文本。然而,基于该技术,用户可能难以理解其他用户的话语,因为根据现有技术,参与会话系统的用户具有不同的国籍、发音特征和语言使用习惯。并且,即使设备显示指示其他用户的话语的文本,语音识别模型也可能不能正确地将话语转换成指示话语含义的文本。因此,需要一种技术以通过使用针对每个用户个性化的语音识别模型来适当地提供指示用户语音输入的含义的识别信息。上述信息被呈现为背景信息仅仅是为了帮助理解本公开。对于上述任何一个是否可以适合作为本公开的现有技术,没有做出确定,也没有做出断言。技术方案本公开各方面至少解决上述问题和/或缺点,并且至少提供下面描述的优点。因此,本公开一方面提供一种方法和设备,用于通过使用个性化人工智能(AI)语音识别模型来准确地确定是否发生另一用户不理解用户的语音输入的情形,从而在不增加网络开销的情况下发送指示用户的语音输入的含义的识别信息。附图说明从以下结合附图的描述中,本公开某些实施例的上述和其他方面、特征和优点将变得更加清楚,在附图中:图1是根据本公开的实施例的设备提供关于从另一设备接收语音的通知消息的示例的视图;图2是根据本公开实施例的由设备执行的向另一设备发送识别信息的方法的流程图;图3是根据本公开实施例的在设备和另一设备之间发送和接收数据的方法的流程图;图4是根据本公开的实施例的其中确定异常情形发生的示例的视图;图5是根据本公开的实施例的其中确定异常情形发生的示例的视图;图6是根据本公开实施例的其中设备生成笔记的示例的视图;图7是根据本公开的实施例的每个用户的笔记的视图;图8和图9是根据本公开实施例的设备的框图;图10是根据本公开实施例的控制器的框图;图11是根据本公开实施例的数据学习器的框图;图12是根据本公开实施例的数据识别器的框图;和图13是根据本公开的实施例的其中设备和服务器被同步以学习和识别数据的示例的视图。贯穿附图,相似的附图标记将被理解为指代相似的部件、组件和结构。具体实施方式本公开一方面提供一种方法和设备,用于通过使用个性化人工智能(AI)语音识别模型来准确地确定是否发生另一用户不理解用户的语音输入的情形,从而在不增加网络开销的情况下发送指示该用户的语音输入的含义的识别信息。本公开各方面是至少解决上述问题和/或缺点,并且至少提供下述优点。因此,本公开一方面提供一种方法和设备,用于通过使用个性化人工智能(AI)语音识别模型来准确地确定是否发生另一用户不理解用户的语音输入的情形,从而在不增加网络开销的情况下发送指示该用户的语音输入的含义的识别信息。附加方面将在下面的描述中部分地阐述,并且部分地将从描述中变得清楚,或者可以通过所呈现的实施例的实践来了解。根据本公开一方面,提供了一种设备。该设备包括:用户输入接口,被配置为获得由该设备的第一用户输入的语音输入;通信接口,被配置为向另一设备发送获得的语音输入;和控制器,被配置为获得指示获得的语音输入的含义的识别信息,并确定是否发生另一设备的第二用户不理解所发送的语音输入的异常情形,其中通信接口被进一步配置为基于确定的结果向另一设备发送获得的识别信息。根据本公开另一方面,提供了一种方法。由设备执行的向另一设备发送音频数据和从另一设备接收音频数据的方法包括:获得由该设备的第一用户输入的语音输入;获得指示获得的语音输入的含义的识别信息;向另一设备发送获得的语音输入;确定是否发生另一设备的第二用户不理解所发送的语音输入的异常情形;以及基于确定的结果向另一设备发送获得的识别信息。根据另一实施例一方面,一种非暂时性计算机可读记录介质上包含用于执行由该设备执行的向另一设备发送音频数据和从另一设备接收音频数据的方法的程序。从以下结合附图公开了本公开各种实施例的详细描述中,本公开的其他方面、优点和显著特征对于本领域技术人员将变得清楚。下列参考附图的描述被提供以帮助全面理解由权利要求及其等同限定的本公开各种实施例。它包括有助于理解的各种特定细节,但这些仅仅视为示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开范围和精神的情况下,可以对本文描述的各种实施例进行各种改变和修改。另外,为了清楚和简明起见,可以省略对公知功能和构造的描述。在以下描述和权利要求中使用的术语和词语不限于文献意义,而是仅由专利技术人使用以使得能够清楚和一致地理解本公开。因此,对于本领域技术人员来说清楚的是,提供对本公开各种实施例的以下描述仅仅是为了说明的目的,而不是为了限制由所附权利要求及其等同限定的本公开。应当理解,单数形式“一”、“一个”和“该”包括复数指代,除非上下文另有明确指示。因此,例如,对“一个组件表面”的引用包括对一个或多个这样的表面的引用。贯穿说明书,应当理解,当一个元件被称为“连接”到另一元件时,它可以“直接连接”到另一元件,或者“电连接”到另一元件,其间具有插入元件。还应当理解,当部件“包括”或“包含”元件时,该部件可以进一步包括其他元件,不排除其他元件,除非另有定义。应当理解,尽管术语第一、第二等可以在本文用来描述各种元素,但是这些元素不应该被这些术语所限制。这些术语仅用于区分一元素和另一元素。在本说明书中,用户输入可以包括例如触摸输入、弯曲输入、语音输入、按键输入和多模型输入中的至少一个。然而,用户输入不限于此。在下文中,将参考附图详细描述本公开。图1是根据本公开的实施例的其中本文档来自技高网
...

【技术保护点】
1.一种设备,包括:用户输入接口,被配置为获得由所述设备的第一用户输入的语音输入;通信接口,被配置为向另一设备发送获得的语音输入;以及控制器,被配置为:获得指示获得的语音输入的含义的识别信息,并且确定是否发生其中所述另一设备的第二用户不理解所发送的语音输入的异常情形,其中,所述通信接口被进一步配置为基于所述确定的结果,向所述另一设备发送获得的识别信息。

【技术特征摘要】
【国外来华专利技术】2016.12.26 KR 10-2016-0179317;2017.11.08 KR 10-2011.一种设备,包括:用户输入接口,被配置为获得由所述设备的第一用户输入的语音输入;通信接口,被配置为向另一设备发送获得的语音输入;以及控制器,被配置为:获得指示获得的语音输入的含义的识别信息,并且确定是否发生其中所述另一设备的第二用户不理解所发送的语音输入的异常情形,其中,所述通信接口被进一步配置为基于所述确定的结果,向所述另一设备发送获得的识别信息。2.根据权利要求1所述的设备,其中,所述控制器还被配置为:获得被配置为解释第一用户的语音输入的第一人工智能AI语音识别模型,并且通过使用第一AI语音识别模型生成指示第一用户的语音输入的含义的文本。3.根据权利要求2所述的设备,其中,所述第一AI语音识别模型在所述设备中生成,并在所述设备中注册。4.根据权利要求2所述的设备,其中,所述第一AI语音识别模型在所述第一用户的另一设备中生成,并提供给所述设备。5.根据权利要求1所述的设备,进一步包括:显示器,被配置为当异常情形发生时,在所述设备的屏幕上显示检查获得的识别信息是否指示所述语音输入的含义的检查消息,其中,所述控制器被进一步配置为响应于所显示的检查消息,基于由第一用户生成的用以校正识别信息的输入来校正所述识别信息,并且其中,所述通信接口被进一步配置为向所述另一设备发送校正后的识别信息。6.根据权利要求1所述的设备,其中,所述控制器被进一步配置为通过分析从所述另一设备接收到的第二用户的至少一个语音输入来确定异常情形是否发生。7.根据权利要求6所述的设备,其中,所述控制器被进一步配置为:将第二用户的至少一个语音输入转换成文本,并且基于转换的文本中是否包括预定短语来确定异常情形是否发生。8.根据权利要求1所述的设备,其中,所述通信接口被进一步配置为从所述另一设备接收对指示所述语音输入的含义的识别信息的请求。9.根据权利要求1所述的设备,其中,所述通信接口被进一步配置为从所述另一设备接收指示第二用...

【专利技术属性】
技术研发人员:金在德朴美正
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1