本发明专利技术实施例提供一种语音文本串的解析方法和装置。所述方法包括:获取待解析的语音文本串;将所述语音文本串与预设的多个正则表达匹配模板进行匹配,获取匹配的正则表达匹配模板的信息,其中,所述正则表达匹配模板以结构化形式表达,在第一结构化标签中描述正则表达式的规则字符串序列,在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串;输出所述匹配的正则表达匹配模板的信息。通过构建结构化形式的正则表达匹配模板的方式,使得正则表达式的表达和管理规范、简单。
【技术实现步骤摘要】
语音文本串的解析方法和装置
本专利技术涉及语义分析技术,尤其涉及一种语音文本串的解析方法和装置。
技术介绍
目前,基于语音识别的应用由于其使用便利性,已得到广泛的应用。用户在输入语音时通常以口语化的方式表达其意图,因此在将用户的语音转换为语音文本串后进行解析时,需要使用适于口语表达的解析方式。规则匹配是口语化语义解析比较常用的方法,使用预先编制好的规则串与(语音转换后的)语音文本串进行字符串匹配。现有的用于口语解析的正则表达式通常是以非常抽象的方式呈现出来的。例如,假设要解析发短信的命令,则需要这样编写规则:“(给)(.+)(发|回)(信息|短信)”或/和“(发|回)(信息|短信)(给)(.+)”,并将所述规则存入数据库。当用户语音录入“给刘德华发短信”时,在将所述语音转换为相应的文本串后,可匹配上前者的规则,进而给出解析结果。目前的正则表达式的编写和维护存在以下缺点:首先,正则表达式的编写规则抽象难懂,而且容易发生编写错误。其次,现有的方案需要将关键词直接写入正则表达式中,例如“(信息|短信)”,而且很多正则表达式都包含同样的关键词。那么,当修改、添加、删除关键词的时候,就需要操作很多个正则表达式,非常繁琐。再次,对于要提取的参数,现有的基于正则表达式的方法都是通过参数的顺序来表示,例如,在“(给)(.+)(发|回)(信息|短信)”中,用第二个参数来表示要提取的参数。这导致了每次编写正则表达式都要去数参数的顺序,容易出错。最后,随着需要进行语义解析的领域的增加,要编写的正则表达式也越来越多,有效地管理和维护编写的正则表达式成为一个契待解决的问题。专利技术内容本专利技术的目的在于,提供一种语音文本串的解析方法和装置,通过结构化形式来表达和管理正则表达式,以有效地管理和维护编写的正则表达式。根据本专利技术的一方面,提供一种语音文本串的解析方法,其特征在于,所述方法包括:获取待解析的语音文本串;将所述语音文本串与预设的多个正则表达匹配模板进行匹配,获取匹配的正则表达匹配模板的信息,其中,所述正则表达匹配模板以结构化形式表达,在第一结构化标签中描述正则表达式的规则字符串序列,在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串;输出所述匹配的正则表达匹配模板的信息。优选地,在所述第二结构化标签中还包括所述匹配字符串的替换字符串的信息。其中,在所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理中,对于任一匹配字符串,将所述语音文本串中相应的字符串与所述匹配字符串以及其替换字符串进行匹配。优选地,在所述第一结构化标签中,所述正则表达式的规则字符串序列中待提取的参数以变量表达,并且在第三结构化标签中描述与待提取的参数相应的变量的信息。优选地,所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理还包括:根据所述第一结构化标签中的变量从所述语音文本串提取符合相应的第三结构化标签中的描述的参数数据;所述输出所述匹配的正则表达匹配模板的信息的处理还包括:输出提取的参数数据。优选地,在第四结构化标签中描述所述正则表达匹配模板表示的用户意图的数据。相应地,所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理还包括:提取与所述匹配的正则表达匹配模板相应的第四结构化标签的数据;所述输出所述匹配的正则表达匹配模板的信息的处理还包括:输出所述正则表达匹配模板表示的用户意图的数据。所述结构化形式可以是XML语言格式,所述正则表达匹配模板可以是DOM树。根据本专利技术的另一方面,还提供一种语音文本串的解析装置。所述装置包括:语音文本串获取单元,用于获取待解析的语音文本串;正则表达匹配单元,用于将所述语音文本串与预设的多个正则表达匹配模板进行匹配,获取匹配的正则表达匹配模板的信息,其中,所述正则表达匹配模板以结构化形式表达,在第一结构化标签中描述正则表达式的规则字符串序列,在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串;正则表达输出单元,用于输出所述匹配的正则表达匹配模板的信息。优选地,在所述第二结构化标签中还包括所述匹配字符串的替换字符串的信息。其中,正则表达匹配单元用于对于任一匹配字符串,将所述语音文本串中相应的字符串与所述匹配字符串以及其替换字符串进行匹配。优选地,在所述第一结构化标签中,所述正则表达式的规则字符串序列中待提取的参数以变量表达,并且在第三结构化标签中描述与待提取的参数相应的变量的信息。优选地,所述正则表达匹配单元还用于根据所述第一结构化标签中的变量从所述语音文本串提取符合相应的第三结构化标签中的描述的参数数据;所述正则表达输出单元还用于输出提取的参数数据。优选地,在第四结构化标签中描述所述正则表达匹配模板表示的用户意图的数据;相应地,所述正则表达匹配单元还用于提取与所述匹配的正则表达匹配模板相应的第四结构化标签的数据;所述正则表达输出单元还用于输出所述正则表达匹配模板表示的用户意图的数据。所述结构化形式可以是XML语言格式,所述正则表达匹配模板可以是DOM树。根据本专利技术示例性实施例的语音文本串的解析方法和实现所述方法的装置通过构建结构化形式的正则表达匹配模板的方式,使得正则表达式的表达和管理规范、简单。通过结构化形式编写的规则也更为直观,容易理解。此外,基本的结构化标签可被重复利用,更提高了管理效率。此外,通过例如XML可扩展标记语言构建和管理正则表达式,与其他编程语言或软件工具之间的兼容性强,使得如此编写的正则表达式可用性强。附图说明图1是示出根据本专利技术的基本构思编写的正则表达匹配模板的示例;图2是示出根据本专利技术的示例性实施例一的语音文本串的解析方法的流程图;图3是示出根据本专利技术的示例性实施例二的语音文本串的解析装置的逻辑框图。具体实施方式本专利技术的基本专利技术构思是,以结构化形式的正则表达匹配模板来描述正则表达式,使用结构化标签(第一结构化标签)描述正则表达式的,并且通过至少一个另一种结构化标签(第二结构化标签)来分别表示所述规则字符串序列中的各匹配字符串。这样,在结构化标签中描述的规则字符串序列直观、易懂,隐藏了所述规则字符串序列中的匹配字符串的复杂度,同时通过第二结构化标签表示的所述匹配字符串还可在多个正则表达匹配模板重复被使用,提高了正则表达式的可复用性和可维护性。此外,使用变量来表达所述正则表达式的规则字符串序列中待提取的参数,并且还通过再另一种结构化标签(第三结构化标签)描述与待提取的参数相应的变量的信息。由此,通过正则表达匹配模板还可提取出输入的语音文本串中的参数数据,如变量名称(即参数名称)及其参数值,用户无需记住正则表达式中提取参数的位置,降低出错率。在本文中以目前广泛使用的结构化描述形式的XML语言表达的正则表达匹配模板作为示例对本专利技术的示例性实施例进行描述。需要理解,本专利技术提出的正则表达匹配模板可使用任何可扩展的结构化表达形式来进行表达/描述,而不限于使用XML语言的方式。图1是示出根据本专利技术的基本构思编写的正则表达匹配模板的示例,其示出用于表达发送信息的正则表达匹配模板。参照图1,标签<template>定义的是所述正则表达匹配模板,其中的标签<pattern>(第一结构化标签)用于描述规则字符串序列“【发送】本文档来自技高网...
【技术保护点】
一种语音文本串的解析方法,其特征在于,所述方法包括:获取待解析的语音文本串;将所述语音文本串与预设的多个正则表达匹配模板进行匹配,获取匹配的正则表达匹配模板的信息,其中,所述正则表达匹配模板以结构化形式表达,在第一结构化标签中描述正则表达式的规则字符串序列,在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串;输出所述匹配的正则表达匹配模板的信息。
【技术特征摘要】
1.一种语音文本串的解析方法,其特征在于,所述方法包括:获取待解析的语音文本串;将所述语音文本串与预设的多个正则表达匹配模板进行匹配,获取匹配的正则表达匹配模板的信息,其中,所述正则表达匹配模板以结构化形式表达,在第一结构化标签中描述正则表达式的规则字符串序列,所述规则字符串序列中待提取的参数以变量表达,在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串,在第三结构化标签中描述与待提取的参数相应的变量的信息;所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配,获取匹配的正则表达匹配模板的信息,包括:根据所述第一结构化标签中的变量从所述语音文本串提取符合相应的第三结构化标签中的描述的参数数据;输出所述匹配的正则表达匹配模板的信息,包括:输出提取的参数数据。2.根据权利要求1所述的方法,其特征在于,在所述第二结构化标签中还包括所述匹配字符串的替换字符串的信息,其中,在所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理中,对于任一匹配字符串,将所述语音文本串中相应的字符串与所述匹配字符串以及其替换字符串进行匹配。3.根据权利要求1~2中任一项所述的方法,其特征在于,在第四结构化标签中描述所述正则表达匹配模板表示的用户意图的数据,所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理还包括:提取与所述匹配的正则表达匹配模板相应的第四结构化标签的数据,所述输出所述匹配的正则表达匹配模板的信息的处理还包括:输出所述正则表达匹配模板表示的用户意图的数据。4.根据权利要求3所述的方法,其特征在于,所述结...
【专利技术属性】
技术研发人员:时培轩,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。