当前位置: 首页 > 专利查询>微软公司专利>正文

索引和搜索带有文本元数据的语音制造技术

技术编号:2823005 阅读:198 留言:0更新日期:2012-04-11 18:40
通过获得语音数据的词语的出现概率和词语的位置信息并且将它与文本元数据中该词语的至少位置信息组合来创建用于搜索具有语音数据和文本元数据的口语文档的索引。可以创建单个索引,因为语音数据和文本元数据被同样处理并仅被视为不同的类别。

【技术实现步骤摘要】
【国外来华专利技术】索引和搜索带有文本元数据的语音扭旦NT豕下面的讨论仅用于提供一般的
技术介绍
信息而非用于帮助确定要求保护 主题的范围。现在存在正在产生、交换和存储的大量各种类型数据。这是因为现在可用 的计算能力与连接带宽以及相对廉价的数据存储成本所致。因此,对数据进行 搜索并找到相关信息的能力随着越来越多数据被保存而显现为关键应用。然而不是所有数据都能被轻易访问。尽管文本数据能被索引且因而相对容 易地搜索,但通常未转录的语音数据不是能容易地搜索的形式。手工转录语音 在时间与计算资源方面都是昂贵的,并且还引起私密性方面的问题。然而,随着存储变得更廉价,将存储越来越多有用的未转录的语音数据,从而增加了对 该数据进行搜索的需求或要求。概述提供本概述以简化形式介绍在下面的详细描述中进一步描述的一些概念。该概述不是要标识要求保护主题的关键特征或本质特征,也不用于帮助确定要求保护主题的范围。另外,在此提供的描述和要求保护主题不应解释为其目标是解决
技术介绍
中讨论的任何缺点。用于搜索具有语音数据和文本元数据的口语文档的索引是通过获得语音数据中词语的出现概率和词语的位置信息并将它与文本元数据中这些词语的 至少位置信息组合起来而创建的。可以创建单个索引,因为语音数据和文本元 数据是被同样处理的并且仅被视为不同的类别。在一个实施例中,索引包含语音数据和文本元数据(标题、发言人名字、 摘要等)的口语文档的方法包括生成与来自语音数据的经识别语音有关的信 息。具体地,该信息包括经识别语音中词语的出现概率和词语的位置信息。另 外,以与有关经识别语音的信息基本上相同的格式生成文本元数据中词语的至少位置信息。这允许索引容易地被创建,因为有关语音数据的信息和有关文本 元数据的信息能以相同的方式来处理。使用该索引,口语文档可以基于收到的查询来搜索。返回的文档按相关性 排列;然而,相关性是按搜索查询项在语音数据和/或文本元数据中的出现来计 算的。附图简述 附图说明图1是计算环境的实施例的俯视图。 图2是替换计算环境的框图。图3是构建与搜索口语文档的索引的方法的流程图。 图4是用于构建和搜索口语文档的索引的元素的框图。 图5是识别网格的示例。图6示出已经分到各位置中的词语和节点之间的关联。 图7是位置专用后验网格的示例。 图8是索引的一部分的示例。 图9是口语文档的图示。详细描述在此描述的一个概念提供一种方法和/或系统,它使用语音和文本内容信 息进行文档检索,尤其是用于口语文档检索但并不限于此。参考图9,如在50处图示的口语文档很少仅包含语音数据52。相反,文 本元数据54通常与语音数据52相关联且也形成文档50 —部分。文本元数据 54可包含各种各样的信息,但一般可视为有关或关于相关联语音数据52的文 本信息。例如,如所示的,文本元数据54可包含文档50的标题56、发言人的 名字58和文档50的摘要或简短描述60以及语音数据52。然而,应当理解, 上述内容仅是文本元数据54的示例,并且文本元数据54可以包含其它形式的 文本信息,诸如但不限于有关指向语音文件的http链接的锚文本、在给定网 页上环绕语音的文本、赞助者信息、事件的位置、日期与时间等等。这样的文 本元数据54可以分类为图9所图示的那样或者按需以任何其它方式来分组。如下所述,语音数据52和文本元数据54被相似地处理并且在充许用户査 询口语文档50的集合并基于该査询确定该集合中哪些文档有可能相关的框架 中使用。为每一文档获得一个指示诸如分数,通过它可查明相关性。具体地, 分析可包括获得语音数据52和文本元数据54或其一部分的单独分数,这些分 数可组合起来以获得文档分数。在下述实施例中,语音数据和文本元数据基于为每种类型数据生成位置专 用后验网格(Position Specific Posterior Lattice) (PSPL)来相似地处理。通过相 同地处理每种类型的数据,之后获得分数是一致且高效的。通常,位置专用后验网格的使用是一种将关键词语搜索范例从文本文档扩 展到口语文档的方法。结合PSPL的框架在给定声学依据的情况下考虑词语序 列的后验概率作为对口语内容的固有不确定性建模的一种方法。同时,该技术 被设计为携带位置信息以便在评分范例中包括近似程度。然而,在描述更多方面之前,首先描述可实现下面提供的描述的示例性计 算设备或环境是有益的。本描述将包含有关生成语音数据52的PSPL表示的细 节以及生成文本元数据54的PSPL表示的描述。还提供用于获得口语文档50 的分数的示例性技术。示例性计算系统环境图1例示合适计算系统环境100的第一示例,其上可实现在此描述的概念。 此外,计算系统环境100仅是合适计算环境的一个示例,而且并不是要对下面 的描述的使用范围或功能提出任何限制。也不应将计算环境100解释为对在示 例性操作环境100中例示的任一组件或其组合有任何依赖性或要求。除了在此提供的示例外,其它周知的计算系统、环境和/或配置可适于与 此描述的概念一起使用。这类系统包括但不限于,个人计算机、服务器计算机、 手持或膝上型设备、多处理器系统、基于微处理器系统、机顶盒、可编程消费 电子产品、网络PC、小型机、大型机、包括任何上述系统或设备的分布式计 算环境等等。在此描述的概念可在由计算机执行的如程序模块的计算机可执行指令的 一般上下文中体现。 一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定的任务或实现特定的抽象数据类型。本领域的技术人员 可将在此的描述和/或附图实现为计算机可执行指令,它们可体现为下述任何形 式的计算机可读介质。在此描述概念也可在其中由通过通信网络链接的远程处理设备执行任务 的分布式计算环境中实践。在分布式计算环境中,程序模块可位于包括存储器 存储设备在内的本地和远程计算机存储介质两者中。参考图1,示例性系统包括计算机110形式的通用计算设备。计算机110 的组件可包括但不限于,处理单元120、系统存储器130和系统总线121,系 统总线121将包括系统存储器在内的各种系统组件耦合到处理单元120。系统 总线121可以是任何若干类型的总线结构,包括存储器总线或存储器控制器、 外围总线以及使用任何各种总线架构的本地总线。作为示例而非限制,这类体 系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、 增强型ISA (EISA)总线、视频电子标准协会(VESA)本地总线以及外围组 件互连(PCI)总线,也称为夹层(Mezzaine)总线。计算机110 —般包括各种计算机可读介质。计算机可读介质可以是可由计 算机110访问的任何可用介质,并且包括易失性和非易失性介质、可移动和不 可移动介质两者。作为示例但非限制,计算机可读介质可包括计算机存储介质 和通信介质。计算机存储介质包括易失性与非易失性、可移动与不可移动介质, 它们以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息 的任何方法或技术来实现。计算机存储介质包括但不限于,RAM、 ROM、 EEPROM、闪存或其它存储器技术,CD-ROM、数字多功能盘(DVD)或其它 光盘存储,磁带盒、磁带、磁盘存储或其它磁存储设备,或者任何可用于存储 所需信息并且能由计算机100访问的本文档来自技高网...

【技术保护点】
一种索引包含语音数据(52)和文本元数据(54)的口头文档(50)的方法,所述方法包括:    生成(305)有关来自语音数据(52)的经识别语音的信息,所述信息包含所述经识别语音中词语的出现概率和所述词语的位置信息;    以与所述有关经识别语音的信息实质上相同的格式生成(313)有关文本元数据(54)中词语的至少位置信息的信息;以及    基于所述有关经识别语音的信息和所述有关文本元数据的信息构造(314)索引。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:A阿塞罗CI克尔伯JSF桑彻斯
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利