话音查询处理服务器及其方法技术

技术编号:29088271 阅读:25 留言:0更新日期:2021-06-30 09:53
本申请涉及一种话音查询处理服务器及通过该话音查询处理服务器来抑制话音查询的方法。该方法在指定的时间间隔期间接收多个包括音频数据的话音查询处理请求。作为响应,处理所述音频数据以生成声学指纹;并且通过确定所生成的声学指纹之间的匹配,标识一组话音查询处理请求,其中所述一组话音查询处理请求的每个参考共同话音查询,然后可以抑制执行所述共同话音查询所指示的操作。同话音查询所指示的操作。同话音查询所指示的操作。

【技术实现步骤摘要】
话音查询处理服务器及其方法
[0001]本申请是申请日(国际申请日)为2018年1月10日,申请号为201880031026.9(国际申请号为PCT/US2018/013144),专利技术名称为“检测和抑制话音查询”的专利技术专利申请的分案申请。


[0002]本说明书总体上涉及识别口语单词(还称为语音识别)的基于计算机的系统和技术。

技术介绍

[0003]基于话音的客户端装置可以放置在家里、办公室内或其他环境中并且可以将环境转换到语音使能的环境中。在语音使能环境中,用户可以说出查询或命令来提示基于话音的客户端生成回答,或者根据用户的查询或命令执行其他操作。为了防止基于话音的客户端应对语音使能环境下所作出的所有发声,客户端可以配置为仅当环境中检测到预先限定的热词时才激活。热词——其还称为“关注词”或“话音行为初始化命令”——总体上是要引起系统关注而说出的预先确定的单词或术语。当系统检测到用户已经说出热词时,系统可以进入接收其他话音查询的就绪状态。

技术实现思路

[0004]本文档描述检测客户端装置的环境中发出的不合理的话音查询并且抑制由这样的不合理的话音查询所指示的操作的系统、方法、装置和其他技术。在一些实现方式中,基于话音的客户端可以在网络上与话音查询处理服务器系统进行通信,以获得由客户端检测到对于话音查询的响应。尽管服务器系统处接收的许多话音查询可以出于合理的目的(例如请求对个人的问题的回答或调用对一次交易的执行),但是不是所有话音查询都可以是良性的。一些话音查询可能被恶意的活动者例如用于实行分布式拒绝服务(DDoS)攻击。其他查询可能来自媒体内容而不是人类用户,诸如包含热词的视频的中的对话。当无论有意还是无意地回放视频时,热词可能将基于话音的客户端激活到一状态中,在该状态下将视频中的其他对话无意识地捕获为话音查询并请求处理。如将要理解的,捕获、传输和/或处理这样的对话可能构成计算资源的浪费。在一些实现方式中,本文中所公开的技术可以用于通过使在短时间上从多个客户端装置在服务器系统处接收的相同或相似查询群集来检测不合理的话音查询。如果共同话音查询的组满足一个或多个抑制准则,则系统可以将话音查询列入黑名单以便抑制执行由系统实质接收的其他匹配话音查询所指示的操作。在一些实现方式中,系统可以将在系统处通信量中的尖峰标识为信号,以搜索潜在可能尝试利用系统的不合理的话音查询。
[0005]本文中公开的主题的一些实现方式包括计算机实现的方法。该方法可以由在一个或多个定位中的一个或多个计算机的系统来执行。系统从多个客户端装置接收请求,以处理已经在客户端装置的本地环境中检测到的话音查询。然后,系统可以标识基于对处理在
指定的时间间隔期间由系统所接收的话音查询的请求的数目的值满足一个或多个第一准则。在响应于标识基于对处理在指定的时间间隔期间由系统所接收的话音查询的请求的数目的值满足一个或多个准则的情况下,系统可以分析在指定的时间间隔期间接收的请求的至少一些以确定各自标识共同话音查询的请求的集合。系统可以生成电子指纹,该电子指纹指示共同话音查询的不同模型。然后,使用共同话音查询的电子指纹,系统可以在后来从客户端装置接收的请求中标识不合理的话音查询。在一些实现方式中,系统抑制执行由系统随后接收的一个或多个请求中由共同话音查询所指示的操作。
[0006]这些和其他实现方式可以可选地包括如下特征中的一个或多个。
[0007]系统可以确定各自标识共同话音查询的请求的集合是否满足一个或多个第二准则。基于各自标识共同话音查询的请求的集合确定为满足一个或多个第二准则,系统可以选择生成共同话音查询的电子指纹。
[0008]确定各自标识共同话音查询的请求的集合是否满足一个或多个第二准则可以包括:确定基于各自标识共同话音查询的请求的集合中的请求的数目是否满足阈值。
[0009]标识基于对处理在指定的时间间隔期间由系统所接收的话音查询的请求的数目的值满足一个或多个第一准则可以包括:确定在指定的时间间隔期间由系统所接收的请求的体量满足阈值体量。
[0010]在指定的时间间隔期间由系统所接收的请求的体量可以指示以下的至少一个:在指定的时间间隔期间接收的请求的绝对数目、在指定的时间间隔期间接收的请求的相对数目、在指定的时间间隔期间接收的请求的速率、或在指定的时间间隔期间接收的请求的加速度。
[0011]分析在指定的时间间隔期间接收的请求的至少一些以确定各自标识共同话音查询的请求的集合可以包括:生成由在指定的时间间隔期间接收的请求标识的话音查询的电子指纹并且确定电子指纹之间的匹配。
[0012]共同话音查询可以包括激活客户端装置的热词、以及在热词之后的一个或多个单词。在一些实现方式中,共同话音查询不包括热词。
[0013]本文中公开的主题的一些实现方式包括其他计算机实现的方法。该方法可以由在一个或多个定位中的一个或多个计算机的系统来执行。系统从多个客户端装置接收请求,以处理已经在客户端装置的本地环境中检测到的话音查询。对于请求的至少一子集中的每个请求,系统可以生成由该请求所标识的相应话音查询的电子指纹。系统可以将在请求的至少该子集中请求的相应话音查询的电子指纹进行比较,以确定匹配电子指纹的组。对于匹配电子指纹的组的至少一子集中的每一组,系统确定相应计数,该计数指示该组中匹配电子指纹的数目。匹配电子指纹的组中的一个或多个组由系统基于计数进行选择。对于匹配电子指纹的每个选择的组,向话音查询抑制服务登记相应电子指纹,该相应电子指纹是基于该组中匹配电子指纹的一个或多个,该话音查询抑制服务例如用于抑制执行由具有匹配电子指纹的、随后接收的话音查询所指示的操作。
[0014]这些和其他实现方式可以可选地包括如下特征中的一个或多个。
[0015]对于请求的至少该子集中的每个请求,系统可以通过生成至少区别地表征相应话音查询的音频数据的模型,而生成由该请求所标识的相应话音查询的电子指纹标识。在一些实例中,模型还标识相应话音查询的文本转录。
[0016]对于匹配电子指纹的每个选择的组,系统可以通过将相应电子指纹添加到列入黑名单的话音查询的数据库,而向话音查询抑制服务登记该组的相应电子指纹。
[0017]系统可以执行包括以下的操作:如已经从客户端装置的集合中的第一客户端装置发送的,接收第一请求以处理在第一客户端装置的本地环境中检测到的第一话音查询;生成第一话音查询的第一电子指纹;将第一电子指纹与列入黑名单的话音查询的集合中的电子指纹进行比较;确定第一电子指纹是否匹配列入黑名单的话音查询的该集合中的任意电子指纹;以及在响应于确定第一话音查询的第一电子指纹匹配列入黑名单的话音查询的该集合中的电子指纹中的至少一个的情况下,确定抑制由第一话音查询所指示的操作。
[0018]系统可以选择匹配电子指纹的组的一个或多个组,这是基于该组中的一个或多个组具有指示与匹配电子指纹的组的其他组相比匹配电子指纹的数目更多的计数。
[0019]系统可以选择匹配电子指纹的组的一个或多个组,这是基于该组中的一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:由话音查询处理服务器在指定的时间间隔期间接收多个话音查询处理请求,每个话音查询处理请求包括音频数据并且参考相应话音查询;响应于在所述指定的时间间隔期间接收所述多个话音查询处理请求:针对在所述指定的时间间隔期间所接收的在所述多个话音查询处理请求的至少一个子集中的每个话音查询处理请求,由所述话音查询处理服务器处理所述话音查询处理请求的所述音频数据以生成用于由所述话音查询处理请求所参考的所述相应话音查询的声学指纹;以及由所述话音查询处理服务器通过确定针对在所述多个话音查询处理请求的所述至少一个子集中的每个话音查询处理请求所生成的所述声学指纹之间的匹配,来标识一组话音查询处理请求,所述一组话音查询处理请求的每个参考共同话音查询;以及由所述话音查询处理服务器抑制执行由所述共同话音查询所指示的操作。2.根据权利要求1所述的方法,其中在所述指定的时间间隔期间接收所述多个话音查询处理请求包括:由所述话音查询处理服务器从相应不同的客户端装置接收所述多个话音查询处理请求中的每个话音查询处理请求。3.根据权利要求2所述的方法,其中所述多个话音查询处理请求中的每个话音查询处理请求包括:配置为激活所述相应不同的客户端装置的热词,以及所述热词之后的一个或者多个单词。4.根据权利要求1所述的方法,其中每个话音查询处理请求的音频数据包括:用于由所述话音查询处理请求所参考的相应话音查询的内容的音频数据。5.根据权利要求1所述的方法,其中每个话音查询处理请求的音频数据包括:用于由所述话音查询处理请求所参考的相应话音查询的内容之前的激活热词的音频特征。6.根据权利要求1所述的方法,其中所述标识的一组话音查询处理请求中的每个话音查询处理请求所参考的所述共同话音查询是从相应音频装置的一个或者多个扬声器中广播的。7.根据权利要求1所述的方法,其中所述话音查询处理服务器通过网络与多个客户端装置进行通信,每个客户端装置位于相应的声学环境中,并且被配置为:捕获在所述相应声学环境内所说的话音查询,以及在所述网络上发送所述捕获的话音查询到所述话音查询处理服务器。8.根据权利要求1所述的方法,进一步包括:在抑制执行所述共同话音查询的操作之前,由所述话音查询处理服务器确定指示所述标识的一组话音查询处理请求中的所述话音查询处理请求的数目的计数满足阈值计数,其中所述标识的一组话音查询处理请求中的每个话音查询处理请求参考所述共同话音查询。9.根据权利要求1所述的方法,进一步包括:由所述话音查询处理服务器登记用于所述共同话音查询的相应声学指纹在列入黑名单的话音查询的数据库,所述相应声学指纹基于针对所述标识的一组话音查询处理请求中的每个话音查询处理请求所生成的一个或者多个声学指纹,其中所述标识的一组话音查询处理请求的每个参考所述共同话音查询。10.根据权利要求1所述的方法,其中抑制执行由所述共同话音查询所指示的操作包括:由所述话音查询处理服务器抑制执行由在所述话音查询处理服务器上随后接收的一个
或者多个话音查询处理请求中的共同话音查询所指示的操作。11.一种话音查询处理服务器,包括:处理电...

【专利技术属性】
技术研发人员:AH格鲁恩斯坦A克拉库恩M沙里菲
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1