当前位置: 首页 > 专利查询>谷歌公司专利>正文

音频截剪器制造技术

技术编号:17113411 阅读:30 留言:0更新日期:2018-01-24 23:20
本申请涉及音频截剪器。公开了方法、系统和装置,包括编码在计算机存储介质上的计算机程序,其用于将音频数据和该音频数据的转录组合为数据结构。在一个方面中,该方法包括接收与话语相对应的音频数据的动作。该动作包括生成话语的转录。该动作包括将该转录的第一部分分类为触发词项并且将第二部分分类为该触发词项的对象。该动作包括确定该触发词项与处理结果是将对象的转录和该对象的音频数据二者都包括在所生成的数据结构中的触发词项相匹配。该动作包括分离该对象的音频数据。该动作包括生成包括该对象的转录和该对象的音频数据的数据结构。

Audio clipper

This application involves audio clipper. The method, system and device are disclosed, including computer program encoded on computer storage medium, which is used to combine transcription of audio data and audio data into data structure. In one aspect, the method includes the action of receiving audio data corresponding to the utterance. The action includes the transcription of the generated discourse. The action includes classifying the first part of the transcript as a trigger term and classifying the second part into an object of the trigger term. The action includes determining the trigger item and processing result, matching the trigger of the object's transcription and the object's audio data between the two parts in the generated data structure. This action includes the audio data that separates the object. This action includes generating a data structure that includes the transcription of the object and the audio data of the object.

【技术实现步骤摘要】
音频截剪器
本申请涉及话音辨识。
技术介绍
用户通过消息收发(messaging)应用交换消息。在一个示例中,消息收发应用可以允许发送者键入被发送到接收者的消息。消息收发应用还允许发送者说出消息,消息收发应用可以在将该消息发送给接收者前将其转录(transcribe)。
技术实现思路
当将文本消息发送给接收者时,发送者可以选择对设备说出消息收发相关的命令,而不是使用键盘录入消息。例如,发送者可以说“TextLiamgoodluck(给Liam发短信,好运)”。作为响应,该设备可以转录该发送者的话音(speech)并且将“text”辨识为语音命令触发词项、将“liam”辨识为接收者、以及将“goodluck”辨识为有效载荷或语音命令触发词项的对象。然后,该设备将消息“goodluck”发送给该发送者的名为“Liam”的联系人。仅发送该消息的转录(transcript)可能不足以获取该发送者的语音(voice)的语调(intonation)。在该实例中,连同该转录一起发送说出“goodluck”的发送者的音频数据是帮助的。为了仅发送语音命令触发词项的对象的音频数据并且不发送语音命令触发词项的接收者的姓名的音频数据,该设备首先识别该转录中的语音命令触发词项并且将其与发送音频数据和音频数据的转录兼容的其他触发词项(例如“text”和“sendamessageto(发送消息至)”、而不是“call(呼叫)”或“setanalarm(设置闹钟)”)比较。然后,该设备将转录的一部分分类为语音命令触发词项的对象并且分离与那一部分相对应的音频数据。该设备将语音命令触发词项的对象的音频数据和转录发送到该接收者。然后,接收者能够收听说出该消息的发送者的语音并且阅读该消息的转录。接着上述同一示例,该设备分离和发送“goodluck”的音频数据,使得当Liam阅读消息“goodluck”时,还能听到该发送者说出“goodluck”。根据本申请所述的主题的创新方面,一种音频截剪(slicing)的方法包括以下动作:接收与话语(utterance)相对应的音频数据;生成所述话语的转录;将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象;确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配;分离所述语音命令触发词项的所述对象的所述音频数据;以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。这些和其他实施方式均能可选地包括下述特征中的一个或多个。所述动作进一步包括:将所述转录的第三部分分类为所述语音命令触发词项的所述对象的接收者;以及将所述数据结构传送到所述接收者。所述动作进一步包括识别所述话语的语言。基于确定所述话语的所述语言来生成所述数据结构。所述语音命令触发词项是发送文本消息的命令。所述语音命令触发词项的所述对象是文本消息。所述动作进一步包括:生成用户界面以供显示,所述用户界面包括用于生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的所述数据结构的可选择选项;以及接收指示对用于生成所述数据结构的所述可选择选项的选择的数据。所述数据结构是响应于接收到指示对用于生成所述数据结构的所述可选择选项的所述选择的所述数据而生成的。所述动作进一步包括生成所述话语的所述转录的每个词项的定时数据。所述语音命令触发词项的所述对象的所述音频数据是基于所述定时数据来分离的。每个词项的定时数据识别从所述话语的开始到所述词项的开始的流逝时间和从所述话语的所述开始到下一词项的开始的流逝时间。本方面的其他实施例包括对应的系统、装置和记录在计算机存储设备上的计算机程序,其均被配置成执行所述方法的操作。本申请中所述的主题可以具有下述优点中的一个或多个。因为用户能与消息一起发送的该用户说出的音频并且无需额外拨打语音呼叫,因此,可以减少发送用户的语音的声音和消息所需的网络带宽,由此节省建立和维持语音呼叫所需的开销。因为在一个消息分组内发送转录和音频数据,而不是在用于音频数据的消息分组和用于转录的消息分组内发送,可以减少所需的网络带宽。通过仅提取消息的音频数据以供传送到接收者而不是发送整个话语的音频数据,再次减少网络带宽。在附图和下述描述中,阐述本说明书中所述的主题的一个或多个实施例的细节。本主题的其他特征、方面\和优点根据描述、附图、和权利要求书将变得显而易见。附图说明图1图示设备将包括音频数据和该音频数据的转录的数据结构发送到另一设备的示例系统。图2图示将音频数据和该音频数据的转录组合为数据结构的示例系统。图3图示用于将音频数据和该音频数据的转录组合为数据结构的示例过程。图4图示计算设备和移动计算设备的示例。具体实施方式图1图示设备105将包括音频数据130和音频数据的转录135的数据结构110发送到另一设备125的示例系统100。简要地,并且如下文更详细所述,设备105接收与由用户120说出的话语115相对应的音频数据。设备105转录与话语115相对应的音频数据并且生成包括话语115的消息部分的转录135和话语115的消息部分的音频数据130的数据结构110。在接收数据结构110时,用户140能够读取设备125的显示器上的转录135,并且该设备播放音频数据130,因此用户140能听到用户120说出的语音。用户120激活设备105上的消息收发应用。设备105可以是被配置成接收音频数据的任何类型的计算设备。例如,设备105可以是移动电话、平板计算机、手表、膝上型计算机、台式计算机、或任何其他类似的设备。一旦用户120激活消息收发应用,设备105就可以提示用户开始说话。在一些实施方式中,设备105可以提示用户从不同消息收发选项中选择。消息收发选项可以包括仅发送转录,发送转录和音频数据,仅发送音频数据,或适当时自动地发送音频数据。用户说出话语115并且设备105接收对应的音频数据。设备105使用可以包括A-D转换器和音频缓冲器的音频子系统来处理音频数据。设备105处理与话语115相对应的音频数据145,并且在一些实施方式中生成音频数据145的转录150。在一些实施方式中,当用户说话时,设备105生成转录150并且所辨识的文本出现在设备105的显示器上。例如,当用户120说出“textmom(给妈妈发短信)”,词语“textmom”出现在设备105的显示器上。在一些实施方式中,转录150不出现在设备105的显示器上,直到用户120完成说话为止。在该实例中,设备105不转录该音频数据,直到用户120完成说话为止。在一些实施方式中,设备105可以包括用户能选择以编辑转录的选项。例如,设备105可能已转录了“textdon”而不是“textmom”。用户可以选择编辑选项来将该转录改变成“textmom”。在一些实施方式中,设备105的显示器可以仅提供设备105正转录音频数据145而不显示转录150的视觉指示。在一些实施方式中,设备105将音频数据145提供给服务器,并且该服务器生成转录150。然后,该服务器本文档来自技高网...
音频截剪器

【技术保护点】
一种计算机实现的方法,包括:接收与话语相对应的音频数据;生成所述话语的转录;将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象;确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配;分离所述语音命令触发词项的所述对象的所述音频数据;以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。

【技术特征摘要】
2016.07.13 US 15/209,0641.一种计算机实现的方法,包括:接收与话语相对应的音频数据;生成所述话语的转录;将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象;确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配;分离所述语音命令触发词项的所述对象的所述音频数据;以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。2.如权利要求1所述的方法,包括:将所述转录的第三部分分类为所述语音命令触发词项的所述对象的接收者;以及将所述数据结构传送到所述接收者。3.如权利要求1所述的方法,包括:识别所述话语的语言,其中,所述数据结构是基于确定所述话语的所述语言来生成的。4.如权利要求1所述的方法,其中,所述语音命令触发词项是发送文本消息的命令,以及所述语音命令触发词项的所述对象是所述文本消息。5.如权利要求1所述的方法,包括:生成用户界面以供显示,所述用户界面包括用于生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的所述数据结构的可选择选项;以及接收指示对用于生成所述数据结构的所述可选择选项的选择的数据,其中,所述数据结构是响应于接收到指示对用于生成所述数据结构的所述可选择选项的所述选择的所述数据而生成的。6.如权利要求1所述的方法,包括:生成所述话语的所述转录的每个词项的定时数据,其中,所述语音命令触发词项的所述对象的所述音频数据是基于所述定时数据来分离的。7.如权利要求6所述的方法,其中,每个词项的定时数据识别从所述话语的开始到所述词项的开始的流逝时间和从所述话语的所述开始到下一词项的开始的流逝时间。8.一种系统,包括:一个或多个计算机和存储能够操作的指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:接收与话语相对应的音频数据;生成所述话语的转录;将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象;确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配;分离所述语音命令触发词项的所述对象的所述音频数据;以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。9.如权利要求8所述的系统,其中,所述操作进一步包括:将所述转录的第三部分分类为所述语音命令触发词项的所述对象的接收者;以及将所述数据结构传送到所述接收者。10.如权利要求8所述的系统,其中,所述操作进一步包括:识别所述话语的语言,其中...

【专利技术属性】
技术研发人员:阿伯拉罕·正奎·李盛相洙张烨亮
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1