本发明专利技术公开了一种自动语音识别系统中的快速词汇表外搜索的方法,包括以下步骤:在计算机系统上接收文本搜索查询,该查询包括一个或多个查询字;在计算机系统上为查询中的每一个查询字生成语音识别处理后的音频文件中的一个或多个锚字段,所述一个或多个锚字段识别包含查询字的可能位置;在计算机系统上后处理一个或多个锚字段,该后处理步骤包括:扩展所述一个或多个锚字段;将所述一个或多个锚字段分类;和合并所述一个或多个锚字段中重叠的总代吗;和使用约束语法对所述一个或多个查询字中的至少一个的实例在计算机系统上搜索后处理的一个或多个锚字段。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的多个方面涉及到语音处理、索引和搜索。更具体地,本专利技术的多个方面涉 及在自动语音识别(ASR)系统(例如,大词汇量连续语音识别(LVCSR)系统或者类似的适 当系统)中搜索包含至少一个词汇表外(00V)字的短语。
技术介绍
在很多情况下,大集合录制音频(音频信息)的用户很重视在音频中快速搜索字 或短语的能力。例如,在企业联络中心(例如,呼叫中心)中,可以搜索并分析客户与客户 服务代表(或代理)之间的记录谈话以识别客户满意度或客户问题的倾向、监督各种支持 代理的性能以及定位与特定问题相关的呼叫。作为另一个示例,可搜索的讲课记录允许学 生搜索并重放特定兴趣话题的讨论。可搜索的语音信箱消息也允许用户快速找到包含特定 字的语音消息。另一个示例中,可搜索的复杂医疗程序(例如,外科手术)的记录可以用于 定位涉及特定装置的使用、手术中方法的选择以及多种并发症的过程的记录。 通常,自动语音识别(ASR)系统,特别是大词汇量连续语音识别(LVCSR)转录引擎 包括三个部分:一组语言模块(LM)、一组声学模块(AM)和解码器。LM和AM通常通过向学 习模块提供音频文件及其录音文本(例如,已知的、准确的录音文本)进行训练。通常,LM 为统计LM(SLM)。训练过程使用字典(或"词汇表"),该字典将识别的书面语映射到子词序 列(例如,因素或音节)。在语音识别过程中,解码器分析音频片段(例如,音频文件)并且 输出识别的字序列。 可以通过使用LVCSR引擎处理每个音频文件来搜索音频文件集(例如,呼叫中心 的呼叫或者课堂上的一系列演讲)以生成文本抄本文件,在该文本抄本文件中抄本中的每 个写成的字(基本上)对应于音频文件中口述的字。该生成的文本接着可以被传统的基 于文本的搜索引擎(例如,ApacheLucene?)编入索引。然后,用户可以查询该生成的索引 (例如,搜索索引数据库)以搜索抄本。 通常,LVCSR引擎输出中的识别字是从ASR系统的字典(或"词汇表")中包含的 字中选择的(例如,压缩成所述字)。不在该词汇表中("词汇表外"或"00V"字)的字可 能被识别为(例如,具有低可信度的)该词汇表中的字。例如,如果字"Amarillo"不在词 汇表中,"LVCSR"引擎可能会在输出中将该字转录为"ambassador"。因此,当使用这种ASR 系统时,终端用户都不可能从该索引中搜索到不在该词汇表中的任何情况的字。 解决该问题的一个方案是将00V字添加到该词典(即,将该字添加到词汇表),并 且生成新LM(可以是SLM或者约束语法),然后重新处理音频文件。然而,因为需要重新处 理音频语料库,所以这种方法将会增加生成搜索结果的延迟。 在其它的ASR系统中,输出数据为子字水平识别数据,例如音频的语音抄本,而不 是LVCSR输出或者基于近似字的抄本。这种ASR系统通常不包括字词汇表。相反,这些引 擎提供了一种搜索任何字符序列的方法。这种情况下,通过将搜索短语映射到语音序列并 且在语音抄本索引中搜索给定的语音序列执行搜索。通常认为这些引擎的准确性低于基于 LVCSR的引擎,这是因为字的概念并不是识别过程所固有的,而使用字(例如,字的含义)通 常有助于提高语音识别的准确性。 通常,自动语音识别的组合字和音素水平不能解决已知的基于语音的方法的准确 度问题,对于包括至少一个00V字的查询,单纯基于语音的方法的准确度限制仍然会持续。
技术实现思路
本专利技术实施例的多个方面涉及搜索口语语音内容给出的LVCSR输出的系统和方 法,其中搜索查询包括至少一个00V字。 本专利技术的一个实施例涉及在语音文件语料库中快速处理词汇表外(00V)查询的 语音文件检索的系统和方法,所述音频文件语料库由LVCSR(大词汇量连续语音识别)或类 似系统进行分析。"00V查询"是由用户提供一个或多个字的搜索短语,所述一个或多个字 中的至少一个是00V,其中这里所提到的词汇表(字典)是该系统已经在其上做过训练的独 特的字的列表。给定查询和LVCSR索引结果,系统从查询中区分00V和IV(词汇表内)字, 为每个字生成锚(即,在搜索查询中,音频中查询字的位置)的列表。这些锚的位置在修改 后的识别阶段中被重新处理以生成新的搜索事件。因为锚跨越整个语音文件的相对较小的 部分(并且,因此,跨越语音语料库中的相对较小的部分),因此该搜索相对于重新处理整 个语音文件语料库的传统方法快很多。 在本专利技术的一个实施例中,语音文件检索系统被用在联络中心(例如,呼叫中心) 的情形中。在这种情况中,客户向公司的联络中心发出呼叫,该联络中心对该呼叫进行记 录。基于LVCSR的ASR系统处理该呼叫以生成输出抄本,并且为这些抄本编制索引。然后, 诸如客户支持代理和监督者的用户可以在索引的抄本中检索特定的关键字,例如所遇到的 问题的类型、地名、产品名、错误消息、错误代码等。 然而,本专利技术的实施例并不限于人与人之间的对话,而是可以应用于来自任何资 源的任何语音语料库,例如医嘱、电视节目、播客、学术演讲、记录显示等等。 根据本专利技术的一个实施例,一种方法包括以下步骤:在计算机系统上接收文本搜 索查询,该查询包括一个或多个查询字;在计算机系统上在多个语音查询处理的语音文件 中为查询中的每个查询字生成一个或多个锚字段,该一个或多个锚字段识别包含所述查询 字的可能位置;在该计算机系统上后处理一个或多个锚字段,该后处理包括:扩展所述一 个或多个锚字段;对所述一个或多个锚字段分类;和合并所述一个或多个锚字段中的重叠 字段;和在计算机系统上使用约束语法为上述一个或多个查询字中的至少一个的实例对一 个或多个后处理的锚字段执行语音识别。 音频文件可以由语音识别引擎处理,并且上述为查询中的每一个查询字生成处理 后的音频文件的一个或多个锚字段的步骤可以包括:判定该查询字是否在语音识别引擎的 学习模型的词汇表中;当该查询字在该词汇表中时,识别与该查询字相对应的一个或多个 高置信度锚字段;和当该查询字不在词汇表中时,生成该查询字的一个或多个子字的搜索 列表并且识别包含所述一个或多个子字中的至少一个的一个或多个锚字段。 生成一个或多个锚字段的步骤可以进一步包括:收集语音文件中的低置信度字, 该低置信度字具有低于阀值的字置信度,识别与每个子字相对应的一个或多个锚字段的步 骤可以包括:当查询字不在词汇表中时,仅为该查询字的子字搜索低置信度字。 约束语法可以包括查询中的一个或多个词汇表外的查询字,其中词汇表外的查询 字中的每一个都不在查询表中。 该搜索可以包括计算一个或多个事件置信级别,事件置信级别中的每一个对应于 一个或多个锚字段中的锚字段包含所述查询的一个或多个查询字中的特定查询字的置信 度。 该方法可以进一步包括从计算机系统中输出搜索结果,其中该结果包括音频文件 中的按照事件置信级别分类的一个或多个查询字的实例。 该方法可以进一步包括:在计算机系统上,将效用函数应用到一个或多个锚字段 中的每一个,以计算一个或多个相应的锚效用值;和在该计算机系统上根据一个或多个锚 效用值给所述一个或多个锚字段分类。 搜索一个或多个后处理的锚字段的步骤可以仅搜索具有所述一个或多个锚效用 值中的最佳锚效用值的一个或多个后处理锚字段。 扩本文档来自技高网...
【技术保护点】
一种方法,包括以下步骤:在计算机系统上接收文本搜索查询,所述查询包括一个或多个查询字;在多个语音识别处理后的音频文件中为所述查询中的每一个查询字在所述计算机系统上生成一个或多个锚字段,所述一个或多个锚字段识别包含所述查询字的可能位置;在所述计算机系统上对所述一个或多个锚字段进行后处理,所述后处理步骤包括:扩展所述一个或多个锚字段;对所述一个或多个锚字段进行分类;和合并所述一个或多个锚字段中的重叠字段;和使用约束语法在所述计算机系统上为所述一个或多个查询字中的至少一个的实例在所述一个或多个后处理的锚字段上执行语音识别。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:A·列夫托夫,A·法伊扎科夫,Y·康尼格,
申请(专利权)人:格林伊登美国控股有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。