所公开的是一种用于使用语音识别来选择内容文件的方法和无线设备。该方法包括建立标记文本项集合,其中每个标记文本项与内容文件集合中的一个内容文件唯一地关联。从用户接收(804)至少一个可听话语(226)。基于可听话语(226)生成(808)音素网格(302)。基于音素网格(302)生成(810)音素网格统计模型。基于音素网格统计模型中的概率估计向标记文本项分配得分(1008)。呈现高评分标记文本项列表(1014),以便可以进行内容文件的选择。在一些实施例中也可以使用词网格(402)和词网格统计模型。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及语音识别系统领域,并且更具体地涉及 用于无线通信设备中的内容搜索的语音识别。
技术介绍
随着寻呼机和移动电话的出现,无线服务业已经成长为数 十亿美元的行业。近来,语音识别已经享用无线服务业的成功。语音 识别用于各种应用和服务。例如,无线服务订户可以配备有快速拨号 特征,由此订户对着无线设备说出呼叫接收者的名称。使用语音识别 来识别接收者的名称,并且在订户和接收者之间发起呼叫。在另一个 示例中,呼叫方信息(411)可以利用语音识别来识别订户试图对其进 行呼叫的接收者的名称。在无线设备中语音识别的另一个使用是信息检索。例如, 诸如音频文件的内容文件可以被标记有语音数据,检索机制使用该语 音数据来辨别内容文件。然而,当前的语音识别系统不能够在无线设 备处有效地执行信息检索。在无线设备中的很多内容文件包括有限的 文本。例如,音频文件可以仅具有与其相关联的标题。该文本很短并且可能包括拼写不规范而导致词汇里没有的词。另外, 一些语音识别系统利用关键词检出技术来建立用于 查询的关键词集合。由于任务的词汇是开放的,并且经常落在词汇词 典之外,所以难以实现关键词检出技术,其中必须仔细选择关键词和 反关键词(anti-keyword)。因此,其他语音识别系统实现在口述模式 期间的语言模型。然而,训练这样的语言模型是有挑战性的,因为数 据不足并且是动态的。传统的口语文档检索经常类似于文本査询。例7如,语音识别系统用于从口语话语生成文本査询术语。然后,这些文 本查询术语用于査询用于定位用户期望的文件的文件集合。如果无线 设备包括多种文件,则该过程可能相对长,从而消耗和浪费了无线设 备的资源。因此,需要克服如上所述的现有技术的问题。附图说明在附图的各个视图中相同的附图标记指相同或功能类似 的元件,附图连同以下的具体实施方式一起被并入说明书并且形成本 说明书的一部分,附图用于进一步说明各种实施例并且用于解释所有 根据本专利技术的各种原理和优点。图l是图示根据本专利技术的实施例的无线通信系统的框图; 图2是图示根据本专利技术的实施例的图l的语音响应搜索引 擎的更详细视图的框图;图3是图示根据本专利技术的实施例的示例性音素网格的框图;图4是图示根据本专利技术的实施例的示例性词网格的框图; 图5是图示根据本专利技术的实施例的无线设备的框图; 图6是图示根据本专利技术的实施例的信息处理系统的框图; 图7是图示根据本专利技术的实施例的创建索引N元文法 (N-gram)的示例性过程的操作流程图;图8是图示根据本专利技术的实施例的使用索引N元文法来査询音素网格的示例性过程的操作流程图;图9是图示根据本专利技术的实施例的使用索引N元文法来査询词网格的示例性过程的操作流程图;图10是图示根据本专利技术的实施例的用于检索无线设备中的内容使用与索引N元文法相关联的文本査询音素网格的示例性过程的操作流程图;以及图11是图示根据本专利技术的实施例的用于检索无线设备中的内容査询音素网格的另一个示例性过程的操作流程图。 具体实施例方式按照要求,在此公开了本专利技术的详细实施例;然而,应当理解,所公开的实施例仅是本专利技术的示例,它们可以以各种形式来体 现。因此,在此公开的具体结构和功能细节不应当被解释为限制性的, 而仅是作为权利要求的基础,并且是用于教导本领域技术人员以实际 上任何适当的详细结构不同地采用本专利技术的代表性基础。而且,在此使用的术语和短语并不意在是限制性的;相反,意在提供对本专利技术的可理解的描述。如在此所使用的术语"一个"被定义为一个或多于一个。 如在此所使用的术语"多个"被定义为两个或多于两个。如在此所使 用的术语"另一个"被定义为至少第二或更多。如在此所使用的术语 "包含"和/或"具有"被定义为包括(即,开放性语言)。如在此所 使用的术语"耦合"被定义为连接,尽管不一定直接并且不一定机械 地连接。术语"无线通信设备"意在广义地涵盖可以无线地接收信 号、并且可选地可以无线地发射信号以及还可以在无线通信系统中进 行操作的很多不同类型的设备。例如,并且没有任何限制,无线通信 设备可以包括以下的任何一个或组合蜂窝电话、移动电话、智能电 话、双向无线电设备、双向寻呼机、无线消息收发设备、膝上型计算 机/计算机、汽车网关、住宅网关等。语音响应搜索的本专利技术的一个优点是基于从用户接收到 的可听话语来检索内容。为了找到最佳匹配,在索引文件中的N元文 法或词集合被视为査询,并且音素网格和/或词网格被视为要被搜索的 文档。音素序列的重复出现在本专利技术中提供了分辨力。条件网格模型用于对音素级别上的查询评分,以辨别高的短语选择。在两阶段方法 中,基于音素网格找到词,并且基于词网格找到标记文本项。然后, 高评分标记文本项被用户用于辨别用户所期望的内容。无线通信系统根据本专利技术的实施例,如图1所示,图示了无线通信系统 100。图1示出了经由网关108将一个或多个无线设备104与中央服务 器106相连接的无线通信网络102。无线网络102包括移动电话网络、 移动文本消息收发设备网络、寻呼机网络等。而且,无线网络100的 通信标准包括码分多址("CDMA")、时分多址("TDMA")、全 球移动通信系统("GSM")、通用分组无线业务("GPRS")、频 分多址("FDMA")、正交频分复用("OFDM")等。另外,无线 通信网络102还包括文本消息收发标准,例如,短消息服务("SMS")、 增强消息服务("EMS")、多媒体消息服务("MMS")等。无线通信网络102支持任何数目的无线设备104。无线通 信网络102的支持包括支持移动电话、智能电话、文本消息收发设备、 手持计算机、寻呼机、传呼机、无线通信卡等。智能电话是l) 口袋型 PC、手持PC、掌上PC或个人数字助理(PDA)以及2)移动电话的 组合。更一般地,智能电话可以是具有附加应用处理能力的移动电话。 在一个实施例中,无线通信卡(未示出)存在于信息处理系统(未示 出)中。另外,无线设备104还可以包括可选的本地无线链路(未 示出),该本地无线链路允许无线设备104在不使用无线网络102的 情况下直接与一个或多个无线设备通信。本地无线链路(未示出)例 如由允许PTT通信的Mototalk来提供。在另一个实施例中,本地无线 链路(未示出)由蓝牙、红外数据访问(IrDA)技术来提供。中央服务器106保持并且处理在无线网络102上传递的关于所有无线设备的信息。另外,在该示例中,中央服务器106通过无 线通信网络102将无线设备104通信地耦合到广域网110、局域网112 和公共交换电话网114。这些网络IIO、 112、 114中的每一个都具有向 无线设备104发送例如多媒体文本消息的数据的能力。无线通信系统 IOO还包括一个或多个基站116,每个基站116包括站点控制器(未示 出)。在一个实施例中,无线通信网络102能够利用例如由IEEE.16e 标准阐述的时分双工("TDD")来进行宽带无线通信。在一个实施例中,无线设备104包括语音响应搜索引擎 118。语音响应搜索引擎允许用户对无线设备104说出话语,用于检索 诸如音频文件、文本文件、视频文件、图像文件、多媒体文件等的内 容。所述内容可以本地存在于无线设备104上,或者可以存在于诸如 中央本文档来自技高网...
【技术保护点】
一种与无线通信设备一起使用的方法,所述方法用于使用语音识别从内容文件集合中选择内容文件,所述方法包括: 建立标记文本项集合,其中,每个标记文本项与所述内容文件集合中的一个内容文件唯一地关联; 从用户接收至少一个可听话语; 辨别与所接收到的可听话语相关联的音素集合; 基于所辨别的音素集合生成音素网格; 基于所述音素网格生成音素网格统计模型; 基于所述音素网格统计模型向所述标记文本项集合的子集中的每个标记文本项分配得分;以及 呈现具有比阈 值高的得分的一个或多个所述标记文本项。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:马长学,程燕鸣,
申请(专利权)人:摩托罗拉公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。