本发明专利技术公开了一种口语语义解析系统及方法,口语语义解析系统用于对预设领域的口语语义进行解析,包括:存储单元,用于存储预设领域的语义句式,每个语义句式对应一地址,语义句式包括字和关键词,每个关键词对应一标签,存储单元中预设有一词表,用以存储每个字所在的语义句式的地址和/或每个标签所在的语义句式的地址;获取单元,用于获取待解析口语句子;索引单元,分别连接存储单元和获取单元,用于根据待解析口语句子对存储单元中的语义句式进行检索,获取与待解析口语句子相符的候选语义句式,及相应的候选顺序;解析单元,连接索引单元,用于根据排序后的候选语义句式采用模糊匹配算法对待解析口语句子进行解析,获取解析结果。
【技术实现步骤摘要】
本专利技术涉及口语自然语言理解领域,尤其涉及一种高鲁棒性口语语义解析系统及方法。
技术介绍
口语语音识别涉及语音学、语言学、数学信号处理、模式识别等多学科领域。随着智能设备的普及,人与智能设备之间如何更直接友好的交互成为重要问题。由于口语自然语言对于用户天然的友好性和便捷性,基于口语自然语言的人机交互成为趋势,受到工业界越来越多的重视。口语自然语言交互的关键技术在于口语语义理解,即对用户的口语句子进行解析,得到用户想要表达的意图及相应的关键词。一般地,实现口语语义理解的方法是人工搜集或撰写相应的语义句式,然后将待解析的句子与句式匹配从而得到解析结果。在现有的口语语义解析方法中,大都是基于某种文法的匹配,比如正则文法、上下文无关文法,这要求待解析口语句子要与语义句式完全一致,才能解析成功;这使得语义理解系统的构造人员需要耗费大量的时间搜集语义句式;由于前端语音识别等模块存在识别不准确的现象,从而造成语义理解的解析失败;并且由于待解析句式需要与大量的语义句式进行匹配,会造成解析时间长、效率低的问题。
技术实现思路
针对现有的口语语义解析方法存在的上述问题,现提供一种旨在实现可在大规模语义句式库中能够快速准确的查找到与待解析口语句子相似句子,并给出准确的结果的口语语义解析系统及方法。具体技术方案如下:一种口语语义解析系统,用于对预设领域的口语语义进行解析,包括:一存储单元,用于存储所述预设领域的语义句式,每个所述语义句式对应一地址,所述语义句式包括字和关键词,每个所述关键词对应一标签,所述存储单元中预设有一词表,用以存储每个所述字所在的所述语义句式的地址和/或每个所述标签所在的所述语义句式的地址;一获取单元,用于获取待解析口语句子;一索引单元,分别连接所述存储单元和所述获取单元,用于根据所述待解析口语句子对所述存储单元中的所述语义句式进行检索,获取与所述待解析口语句子相符的候选语义句式,及相应的候选顺序;一解析单元,连接所述索引单元,用于根据排序后的所述候选语义句式采用模糊匹配算法对所述待解析口语句子进行解析,获取解析结果。优选的,所述索引单元包括:一提取模块,用于提取所述待解析口语句子中与所述存储单元中相同的所述关键词,并获取所述关键词对应的标签;一替换模块,连接所述提取模块,用于将所述待解析口语句子中的所述关键词采用与所述关键词对应的标签替换,形成替换式口语句子;一索引模块,连接所述替换模块,用于根据所述替换式口语句子中的字和所述标签,在所述存储单元中的所述词表中进行检索,获取与所述字匹配的所述语义句式的地址,和/或所述标签匹配的所述语义句式的地址;一排序模块,连接所述索引模块,用于采用与所述替换式口语句子的相似度比较的方式对与所述替换式口语句子中的所述字匹配的所述语义句式和/或所述标签匹配的所述语义句式进行排序,获取经排序后的所述候选语义句式。优选的,所述排序模块采用得分公式获取所述候选语义句式与所述替换式口语句子的相似度的分数;所述得分公式为:S=(S1+S2)/2,其中,S表示所述候选语义句式与所述替换式口语句子的相似度的分数,S1表示所述候选语义句式中的所述字和/或所述标签占所述替换式口语句子的比例;S2表示所述候选语义句式中的所述字和/或所述标签占所述候选语义句式的比例。优选的,所述解析单元根据排序后的所述候选语义句式采用模糊匹配算法对所述待解析口语句子进行解析的具体过程为:对每个所述候选语义句式建立有限状态自动机网络,根据所述有限状态自动机网络对所述待解析口语句子进行打分,比较所述待解析口语句子的分数,将最高分数的所述待解析口语句子作为所述待解析口语句子的解析结果。优选的,所述词表采用哈希表表示。一种口语语义解析方法,应用于所述口语语义解析系统,包括下述步骤:S1.获取待解析口语句子;S2.根据所述待解析口语句子对所述存储单元中的所述语义句式进行检索,获取与所述待解析口语句子相符的候选语义句式,及相应的候选顺序;S3.根据排序后的所述候选语义句式采用模糊匹配算法对所述待解析口语句子进行解析,获取解析结果。优选的,所述步骤S2的具体过程为:S21.提取所述待解析口语句子中与所述存储单元中相同的所述关键词,并获取所述关键词对应的标签;S22.将所述待解析口语句子中的所述关键词采用与所述关键词对应的标签替换,形成替换式口语句子;S23.根据所述替换式口语句子中的字和所述标签,在所述存储单元中的所述词表中进行检索,获取与所述字匹配的所述语义句式的地址,和/或所述标签匹配的所述语义句式的地址;S24.采用与所述替换式口语句子的相似度比较的方式对与所述替换式口语句子中的所述字匹配的所述语义句式和/或所述标签匹配的所述语义句式进行排序,获取经排序后的所述候选语义句式。优选的,所述步骤S24采用得分公式获取所述候选语义句式与所述替换式口语句子的相似度的分数;所述得分公式为:S=(S1+S2)/2,其中,S表示所述候选语义句式与所述替换式口语句子的相似度的分数,S1表示所述候选语义句式中的所述字和/或所述标签占所述替换式口语句子的比例;S2表示所述候选语义句式中的所述字和/或所述标签占所述候选语义句式的比例。优选的,所述步骤S3的具体过程为:S31.对每个所述候选语义句式建立有限状态自动机网络;S32.根据所述有限状态自动机网络对所述待解析口语句子进行打分;S33.比较所述待解析口语句子的分数,将最高分数的所述待解析口语句子作为所述待解析口语句子的解析结果。优选的,所述词表采用哈希表表示。上述技术方案的有益效果:在本技术方案中,在口语语义解析系统中通过索引单元可快速检索出与待解析口语句子相关的句式,以提高匹配的效率;采用的模糊匹配算法可在对待解析口语句子进行解析时,允许待解析口语句子和候选语义句式之间可存在不一致的部分,具有一定的容错性,从而提高了系统的鲁棒性。在口语语义解析方法中可快速检索出与待解析口语句子相关的句式,以提高匹配的效率,以使在大规模语义句式库中能够快速准确的查找到与待解析口语句子相似的句式,并输出准确的结果。附图说明图1为本专利技术所述口语语义解析系统的一种实施例的模块图;图2为本专利技术所述口语语义解析方法的一种实施例的方法流程图;图3为本专利技术对所述存储单元中的所述语义句式进行检索的方法流程图;图4为本专利技术对所述待解析口语句子进行解析的方法流程图;图5为本专利技术句式倒排索引示意图;图6为本专利技术句式对应的有限状态自动机示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。如图1所示,一种口语语义解析系统,用于对预设领域的口语语义进行解析,包括:一存储单元1,用于存储预设领域的语义句式,每个语义句式对应一地址,语义句式包括字和关键词,每个关键词对应一标签,存储单元1中预设有一词表,用以存储每本文档来自技高网...
【技术保护点】
一种口语语义解析系统,用于对预设领域的口语语义进行解析,其特征在于,包括:一存储单元,用于存储所述预设领域的语义句式,每个所述语义句式对应一地址,所述语义句式包括字和关键词,每个所述关键词对应一标签,所述存储单元中预设有一词表,用以存储每个所述字所在的所述语义句式的地址和/或每个所述标签所在的所述语义句式的地址;一获取单元,用于获取待解析口语句子;一索引单元,分别连接所述存储单元和所述获取单元,用于根据所述待解析口语句子对所述存储单元中的所述语义句式进行检索,获取与所述待解析口语句子相符的候选语义句式,及相应的候选顺序;一解析单元,连接所述索引单元,用于根据排序后的所述候选语义句式采用模糊匹配算法对所述待解析口语句子进行解析,获取解析结果。
【技术特征摘要】
1.一种口语语义解析系统,用于对预设领域的口语语义进行解析,其特征在于,包括:一存储单元,用于存储所述预设领域的语义句式,每个所述语义句式对应一地址,所述语义句式包括字和关键词,每个所述关键词对应一标签,所述存储单元中预设有一词表,用以存储每个所述字所在的所述语义句式的地址和/或每个所述标签所在的所述语义句式的地址;一获取单元,用于获取待解析口语句子;一索引单元,分别连接所述存储单元和所述获取单元,用于根据所述待解析口语句子对所述存储单元中的所述语义句式进行检索,获取与所述待解析口语句子相符的候选语义句式,及相应的候选顺序;一解析单元,连接所述索引单元,用于根据排序后的所述候选语义句式采用模糊匹配算法对所述待解析口语句子进行解析,获取解析结果。2.如权利要求1所述口语语义解析系统,其特征在于,所述索引单元包括:一提取模块,用于提取所述待解析口语句子中与所述存储单元中相同的所述关键词,并获取所述关键词对应的标签;一替换模块,连接所述提取模块,用于将所述待解析口语句子中的所述关键词采用与所述关键词对应的标签替换,形成替换式口语句子;一索引模块,连接所述替换模块,用于根据所述替换式口语句子中的字和所述标签,在所述存储单元中的所述词表中进行检索,获取与所述字匹配的所述语义句式的地址,和/或所述标签匹配的所述语义句式的地址;一排序模块,连接所述索引模块,用于采用与所述替换式口语句子的相似度比较的方式对与所述替换式口语句子中的所述字匹配的所述语义句式和/或所述标签匹配的所述语义句式进行排序,获取经排序后的所述候选语义句式。3.如权利要求2所述口语语义解析系统,其特征在于,所述排序模块采用得分公式获取所述候选语义句式与所述替换式口语句子的相似度的分数;所述得分公式为:S=(S1+S2)/2,其中,S表示所述候选语义句式与所述替换式口语句子的相似度的分数,S1表示所述候选语义句式中的所述字和/或所述标签占所述替换式口语句子的比例;S2表示所述候选语义句式中的所述字和/或所述标签占所述候选语义句式的比例。4.如权利要求1所述口语语义解析系统,其特征在于,所述解析单元根据排序后的所述候选语义句式采用模糊匹配算法对所述待解析口语句子进行解析的具体过程为:对每个所述候选语义句式建立有限状态自动机网络,根据所述有限...
【专利技术属性】
技术研发人员:陈见耸,
申请(专利权)人:芋头科技杭州有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。