语音文本串的解析方法和装置制造方法及图纸

技术编号：12484166 阅读：117 留言：0更新日期：2015-12-10 22:09

本发明专利技术实施例提供一种语音文本串的解析方法和装置。所述方法包括：获取待解析的语音文本串；将所述语音文本串与预设的多个正则表达匹配模板进行匹配，获取匹配的正则表达匹配模板的信息，其中，所述正则表达匹配模板以结构化形式表达，在第一结构化标签中描述正则表达式的规则字符串序列，在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串；输出所述匹配的正则表达匹配模板的信息。通过构建结构化形式的正则表达匹配模板的方式，使得正则表达式的表达和管理规范、简单。

全部详细技术资料下载

【技术实现步骤摘要】
语音文本串的解析方法和装置
本专利技术涉及语义分析技术，尤其涉及一种语音文本串的解析方法和装置。
技术介绍
目前，基于语音识别的应用由于其使用便利性，已得到广泛的应用。用户在输入语音时通常以口语化的方式表达其意图，因此在将用户的语音转换为语音文本串后进行解析时，需要使用适于口语表达的解析方式。规则匹配是口语化语义解析比较常用的方法，使用预先编制好的规则串与(语音转换后的)语音文本串进行字符串匹配。现有的用于口语解析的正则表达式通常是以非常抽象的方式呈现出来的。例如，假设要解析发短信的命令，则需要这样编写规则：“(给)(.+)(发|回)(信息|短信)”或/和“(发|回)(信息|短信)(给)(.+)”，并将所述规则存入数据库。当用户语音录入“给刘德华发短信”时，在将所述语音转换为相应的文本串后，可匹配上前者的规则，进而给出解析结果。目前的正则表达式的编写和维护存在以下缺点：首先，正则表达式的编写规则抽象难懂，而且容易发生编写错误。其次，现有的方案需要将关键词直接写入正则表达式中，例如“(信息|短信)”，而且很多正则表达式都包含同样的关键词。那么，当修改、添加、删除关键词的时候，就需要操作很多个正则表达式，非常繁琐。再次，对于要提取的参数，现有的基于正则表达式的方法都是通过参数的顺序来表示，例如，在“(给)(.+)(发|回)(信息|短信)”中，用第二个参数来表示要提取的参数。这导致了每次编写正则表达式都要去数参数的顺序，容易出错。最后，随着需要进行语义解析的领域的增加，要编写的正则表达式也越来越多，有效地管理和维护编写的正则表达式成为一个契待解决的问题。专利技术...
语音文本串的解析方法和装置

【技术保护点】
一种语音文本串的解析方法，其特征在于，所述方法包括：获取待解析的语音文本串；将所述语音文本串与预设的多个正则表达匹配模板进行匹配，获取匹配的正则表达匹配模板的信息，其中，所述正则表达匹配模板以结构化形式表达，在第一结构化标签中描述正则表达式的规则字符串序列，在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串；输出所述匹配的正则表达匹配模板的信息。

【技术特征摘要】
1.一种语音文本串的解析方法，其特征在于，所述方法包括：获取待解析的语音文本串；将所述语音文本串与预设的多个正则表达匹配模板进行匹配，获取匹配的正则表达匹配模板的信息，其中，所述正则表达匹配模板以结构化形式表达，在第一结构化标签中描述正则表达式的规则字符串序列，所述规则字符串序列中待提取的参数以变量表达，在至少一个第二结构化标签中表示所述规则字符串序列中相应的匹配字符串，在第三结构化标签中描述与待提取的参数相应的变量的信息；所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配，获取匹配的正则表达匹配模板的信息，包括：根据所述第一结构化标签中的变量从所述语音文本串提取符合相应的第三结构化标签中的描述的参数数据；输出所述匹配的正则表达匹配模板的信息，包括：输出提取的参数数据。2.根据权利要求1所述的方法，其特征在于，在所述第二结构化标签中还包括所述匹配字符串的替换字符串的信息，其中，在所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理中，对于任一匹配字符串，将所述语音文本串中相应的字符串与所述匹配字符串以及其替换字符串进行匹配。3.根据权利要求1～2中任一项所述的方法，其特征在于，在第四结构化标签中描述所述正则表达匹配模板表示的用户意图的数据，所述将所述语音文本串与预设的多个正则表达匹配模板进行匹配的处理还包括：提取与所述匹配的正则表达匹配模板相应的第四结构化标签的数据，所述输出所述匹配的正则表达匹配模板的信息的处理还包括：输出所述正则表达匹配模板表示的用户意图的数据。4.根据权利要求3所述的方法，其特征在于，所述结...

【专利技术属性】
技术研发人员：时培轩，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人