语句意图识别方法及其系统、存储介质、处理器技术方案

技术编号:37720682 阅读:13 留言:0更新日期:2023-06-02 00:19
本发明专利技术公开了语句意图识别方法及其系统、存储介质、处理器,本发明专利技术方案通过对待识别语音语句进行音素信息及方言小区集提取,通过生成初始识别信息进而获得与待识别语音语句音译最为接近的识别文本,通过区域方言词典对识别文本中的实体关键字进行词义的识别,得到意图文本和/或意图语音,最终对意图文本和/或意图语音的语义特征进行语境分析及逻辑识别,在确定语义逻辑对应的结果达到预设阈值的情况下,确定上述方法中选用的方言小区区域信息正确,同时确定输出的意图文本和/或意图语音的语义在语境及逻辑上正确;通过本发明专利技术的方案降低我国大量人民用户使用智能设备的门槛,有效提高我国人民在进行语音意图识别中的体验。提高我国人民在进行语音意图识别中的体验。提高我国人民在进行语音意图识别中的体验。

【技术实现步骤摘要】
语句意图识别方法及其系统、存储介质、处理器


[0001]本专利技术涉及自然语言处理
,具体地涉及语句意图识别方法及其系统、存储介质、处理器。

技术介绍

[0002]汉语被划分为七大方言,包括:官话方言,吴方言、湘方言、客家方言、闽方言、粤方言及赣方言,但我国由于不同地区文化差异和语言使用习惯,同一个词,在不同方言中出现时所代表的词义均有不同,在一个比较复杂的大方言区内,有时可以再划分成许多的小方言区,例如广州话、青岛话、唐山话等,其中,同一方言大区中地理位置较为靠近的方言小区,在口音上会存在较高的相似性,但并不代表其对应的词义均一致,例如:官话方言大区中川渝地区与云贵地区对应的方言,在口音上具有一定的相似性,但词义具有较大差距。
[0003]我国人民能够使用标准普通话进行语音输入的人口基数占比非常小,意味着我国人民绝大多数都在进行语音识别过程中所说的普通话或多或少会带有地方口音,甚至只能说方言,其中,部分人民对于某些词义的表达仅能采用方言中的特有词汇。
[0004]在语音的语句意图的识别场景中,如何将带有方言口音的语音数据转换为可快速识别意图的文本信息和/或语音信息,对于提高我国人民在进行语音意图识别体验中具备重要意义。

技术实现思路

[0005]针对上述由于区域口音及用词习惯不同,导致不能准确识别用户意图的问题,本专利技术提供语句意图识别方法及其系统、存储介质、处理器,依据用户的口音对所属的方言小区进行判断,同时根据当地对某一个词或多个词组成的组合进行实体映射,获得可快速识别用户意图的意图文本和/或意图语音。
[0006]语句意图识别方法包括以下步骤:
[0007]S1、获取待识别语音语句,通过口音识别声学模型获得对应的音素信息及方言小区集;
[0008]S2、通过初始识别信息与所有区域方言词典进行匹配,从方言小区集中确定方言小区区域信息,选用方言小区区域信息所对应的区域方言词典,并基于区域方言词典采用语音识别模型对音素信息进行内容识别,获得与待识别语音语句对应的识别文本;
[0009]S3、基于已选用的区域方言词典,采用意图识别模型对识别文本进行意图识别,获得意图文本和/或意图语音;
[0010]S4、采用语句逻辑识别模型对意图文本和/或意图语音进行分析及识别,若识别结果在预设阈值内,则输出意图文本和/或意图语音;若识别结果不在预设阈值内,则重新选择方言小区区域信息,并执行步骤S2

S4。
[0011]进一步的,所述步骤S1中,对待识别语音语句进行声学特征及方言特征区域信息特征进行提取,通过口音识别声学模型将二者进行特征转换及合并,获得口音合并特征,通
过口音合并特征获取音素信息及方言小区集,其中,所述方言小区集包括至少一个方言小区区域信息。
[0012]进一步的,所述步骤S2中,所述区域方言词典包括:记录有所属方言小区特有的一级方言用词规范、记录有所属方言小区及附近至少一个方言小区均有的二级方言用词规范;
[0013]其中,所述一级方言用词规范包括:具有所属方言小区特有的词汇、用词规范、读音及词义;以及
[0014]所述二级方言用词规范包括:所属方言小区及其附近至少一个方言小区均有的词汇、用词规范、读音及词义;
[0015]每个方言小区区域信息对应一个方言小区,且二者数量相同;
[0016]每个所述方言小区区域信息与每个区域方言词典一一对应,且二者数量相同;
[0017]采用所述语音识别模型对音素信息进行识别,生成初始识别信息,所述初始识别信息中记录有包括:初始识别文本信息及其对应的读音信息;
[0018]当初始识别信息中一个词或多个词组成的组合属于一级方言用词规范,则所述一个方言小区集仅包括一个方言小区区域信息;
[0019]当初始识别信息中一个词或多个词组成的组合均不属于一级方言用词规范,且属于二级方言用词规范,则所述一个方言小区集包括至少两个方言小区区域信息;
[0020]初始识别信息的读音与区域方言词典中的读音进行匹配时,当初始识别信息中一个词或多个词组成的组合属于一级方言用词规范,则对方言小区集中仅有的一个方言小区区域信息进行确定,并选用的对应的区域方言词典;当初始识别信息中一个词或多个词组成的组合均不属于一级方言用词规范,且属于二级方言用词规范,则对方言小区集中至少两个方言小区区域信息所对应的区域方言词典的读音与初始识别信息的读音匹配度最高的方言小区区域信息进行确定,并选用对应的区域方言词典;
[0021]其中,当初始识别信息中一个词或多个词组成的组合均不属于一级方言用词规范,且属于二级方言用词规范时,则将方言小区集中与初始识别信息的读音匹配度第二的方言词词典所对应的方言小区区域信息标记为备用方言区域信息。
[0022]进一步的,所述步骤S2中,所述基于区域方言词典采用语音识别模型对音素信息进行内容识别,获得与待识别语音语句对应的识别文本,包括:
[0023]S201、基于区域方言词典,通过语音识别模型对音素信息进行内容识别生成一个候选识别文本集,所述候选识别文本集包括至少一个候选文本;
[0024]S202、根据音素信息与区域方言词典中词汇的匹配度对候选文本进行匹配度评分;
[0025]S203、选取匹配度最高的候选文本通过语音识别模型对初始识别信息进行识别,获得与待识别语音语句对应的识别文本。
[0026]进一步的,所述步骤S3中,将识别文本中属于一级方言用词规范或二级方言用词规范的所有词或多个词组成的组合作为实体关键字词,基于已选用的区域方言词典对实体关键字词的词义进行实体映射,生成对应的映射关键字词,通过映射关键字词获得意图文本和/或意图语音。
[0027]进一步的,所述步骤S4中,基于区域方言词典中的词义对意图文本和/或意图语音
的语义特征进行提取,所述语句逻辑识别模型通过由领域知识图谱和事理图谱组成的全景图谱对语义特征进行语境分析及逻辑识别并获得识别结果。
[0028]进一步的,所述步骤S4还包括,若识别结果不在预设逻辑阈值内时,判断是否存在备用方言区域信息,若有,则采用备用方言区域信息执行步骤S2

S4;若没有,则输出关于无法识别待识别语音语句信息并结束。
[0029]语句意图识别系统,所述语句意图识别系统用于执行所述的语句意图识别方法,包括:
[0030]语音收集模块,所述语音收集模块用于收集语音数据,并进行降噪处理,获得待识别语音语句;
[0031]口音识别声学模型,所述口音识别声学模型对待识别语音语句进行声学特征及其对应的方言特征区域信息特征进行提取,通过口音识别声学模型将二者进行特征转换及合并,获得口音合并特征,基于口音合并特征获取音素信息及方言小区集;
[0032]区域方言词典,所述区域方言词典用于记录有所属方言小区特有的一级方言用词规范、记录有所属方言小区及附近至少一个方言小区均有的二级方言用词规范,其中,<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.语句意图识别方法,其特征在于,包括以下步骤:S1、获取待识别语音语句,通过口音识别声学模型获得对应的音素信息及方言小区集;S2、通过初始识别信息与所有区域方言词典进行匹配,从方言小区集中确定方言小区区域信息,选用方言小区区域信息所对应的区域方言词典,并基于区域方言词典采用语音识别模型对音素信息进行内容识别,获得与待识别语音语句对应的识别文本;S3、基于已选用的区域方言词典,采用意图识别模型对识别文本进行意图识别,获得意图文本和/或意图语音;S4、采用语句逻辑识别模型对意图文本和/或意图语音进行分析及识别,若识别结果在预设阈值内,则输出意图文本和/或意图语音;若识别结果不在预设阈值内,则重新选择方言小区区域信息,并执行步骤S2

S4。2.根据权利要求1所述的语句意图识别方法,其特征在于,所述步骤S1中,对待识别语音语句进行声学特征及方言特征区域信息特征进行提取,通过口音识别声学模型将二者进行特征转换及合并,获得口音合并特征,通过口音合并特征获取音素信息及方言小区集,其中,所述方言小区集包括至少一个方言小区区域信息。3.根据权利要求1所述的语句意图识别方法,其特征在于,所述步骤S2中,所述区域方言词典包括:记录有所属方言小区特有的一级方言用词规范、记录有所属方言小区及附近至少一个方言小区均有的二级方言用词规范;其中,所述一级方言用词规范包括:具有所属方言小区特有的词汇、用词规范、读音及词义;以及所述二级方言用词规范包括:所属方言小区及其附近至少一个方言小区均有的词汇、用词规范、读音及词义;每个方言小区区域信息对应一个方言小区,且二者数量相同;每个所述方言小区区域信息与每个区域方言词典一一对应,且二者数量相同;采用所述语音识别模型对音素信息进行识别,生成初始识别信息,所述初始识别信息中记录有包括:初始识别文本信息及其对应的读音信息;当初始识别信息中一个词或多个词组成的组合属于一级方言用词规范,则所述一个方言小区集仅包括一个方言小区区域信息;当初始识别信息中一个词或多个词组成的组合均不属于一级方言用词规范,且属于二级方言用词规范,则所述一个方言小区集包括至少两个方言小区区域信息;初始识别信息的读音与区域方言词典中的读音进行匹配时,当初始识别信息中一个词或多个词组成的组合属于一级方言用词规范,则对方言小区集中仅有的一个方言小区区域信息进行确定,并选用的对应的区域方言词典;当初始识别信息中一个词或多个词组成的组合均不属于一级方言用词规范,且属于二级方言用词规范,则对方言小区集中至少两个方言小区区域信息所对应的区域方言词典的读音与初始识别信息的读音匹配度最高的方言小区区域信息进行确定,并选用对应的区域方言词典;其中,当初始识别信息中一个词或多个词组成的组合均不属于一级方言用词规范,且属于二级方言用词规范时,则将方言小区集中与初始识别信息的读音匹配度第二的方言词词典所对应的方言小区区域信息标记为备用方言区域信息。4.根据权利要求1所述的语句意图识别方法,其特征在于,所述步骤S2中,所述基于区
域方言词典采用语音识别模型对音素信息进行内容识别,获得与待识别语音语句对应...

【专利技术属性】
技术研发人员:延凯崔荣喜刘祥波扈佃爱高芳梁伟王森李浩申晨张文轩韩群马德志李毅滕飞贺培元滕霞王凯李晶陈胜吉刘新煜林清万
申请(专利权)人:国网山东省电力公司日照供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1