This application involves audio clipper. The method, system and device are disclosed, including computer program encoded on computer storage medium, which is used to combine transcription of audio data and audio data into data structure. In one aspect, the method includes the action of receiving audio data corresponding to the utterance. The action includes the transcription of the generated discourse. The action includes classifying the first part of the transcript as a trigger term and classifying the second part into an object of the trigger term. The action includes determining the trigger item and processing result, matching the trigger of the object's transcription and the object's audio data between the two parts in the generated data structure. This action includes the audio data that separates the object. This action includes generating a data structure that includes the transcription of the object and the audio data of the object.
【技术实现步骤摘要】
音频截剪器
本申请涉及话音辨识。
技术介绍
用户通过消息收发(messaging)应用交换消息。在一个示例中,消息收发应用可以允许发送者键入被发送到接收者的消息。消息收发应用还允许发送者说出消息,消息收发应用可以在将该消息发送给接收者前将其转录(transcribe)。
技术实现思路
当将文本消息发送给接收者时,发送者可以选择对设备说出消息收发相关的命令,而不是使用键盘录入消息。例如,发送者可以说“TextLiamgoodluck(给Liam发短信,好运)”。作为响应,该设备可以转录该发送者的话音(speech)并且将“text”辨识为语音命令触发词项、将“liam”辨识为接收者、以及将“goodluck”辨识为有效载荷或语音命令触发词项的对象。然后,该设备将消息“goodluck”发送给该发送者的名为“Liam”的联系人。仅发送该消息的转录(transcript)可能不足以获取该发送者的语音(voice)的语调(intonation)。在该实例中,连同该转录一起发送说出“goodluck”的发送者的音频数据是帮助的。为了仅发送语音命令触发词项的对象的音频数据并且不发送语音命令触发词项的接收者的姓名的音频数据,该设备首先识别该转录中的语音命令触发词项并且将其与发送音频数据和音频数据的转录兼容的其他触发词项(例如“text”和“sendamessageto(发送消息至)”、而不是“call(呼叫)”或“setanalarm(设置闹钟)”)比较。然后,该设备将转录的一部分分类为语音命令触发词项的对象并且分离与那一部分相对应的音频数据。该设备将语音命令触发词项的对象 ...
【技术保护点】
一种计算机实现的方法,包括:接收与话语相对应的音频数据;生成所述话语的转录;将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象;确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配;分离所述语音命令触发词项的所述对象的所述音频数据;以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。
【技术特征摘要】
2016.07.13 US 15/209,0641.一种计算机实现的方法,包括:接收与话语相对应的音频数据;生成所述话语的转录;将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象;确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配;分离所述语音命令触发词项的所述对象的所述音频数据;以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。2.如权利要求1所述的方法,包括:将所述转录的第三部分分类为所述语音命令触发词项的所述对象的接收者;以及将所述数据结构传送到所述接收者。3.如权利要求1所述的方法,包括:识别所述话语的语言,其中,所述数据结构是基于确定所述话语的所述语言来生成的。4.如权利要求1所述的方法,其中,所述语音命令触发词项是发送文本消息的命令,以及所述语音命令触发词项的所述对象是所述文本消息。5.如权利要求1所述的方法,包括:生成用户界面以供显示,所述用户界面包括用于生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的所述数据结构的可选择选项;以及接收指示对用于生成所述数据结构的所述可选择选项的选择的数据,其中,所述数据结构是响应于接收到指示对用于生成所述数据结构的所述可选择选项的所述选择的所述数据而生成的。6.如权利要求1所述的方法,包括:生成所述话语的所述转录的每个词项的定时数据,其中,所述语音命令触发词项的所述对象的所述音频数据是基于所述定时数据来分离的。7.如权利要求6所述的方法,其中,每个词项的定时数据识别从所述话语的开始到所述词项的开始的流逝时间和从所述话语的所述开始到下一词项的开始的流逝时间。8.一种系统,包括:一个或多个计算机和存储能够操作的指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:接收与话语相对应的音频数据;生成所述话语的转录;将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象;确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配;分离所述语音命令触发词项的所述对象的所述音频数据;以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。9.如权利要求8所述的系统,其中,所述操作进一步包括:将所述转录的第三部分分类为所述语音命令触发词项的所述对象的接收者;以及将所述数据结构传送到所述接收者。10.如权利要求8所述的系统,其中,所述操作进一步包括:识别所述话语的语言,其中...
【专利技术属性】
技术研发人员:阿伯拉罕·正奎·李,盛相洙,张烨亮,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。