流式语义理解方法及装置制造方法及图纸

技术编号:37676852 阅读:12 留言:0更新日期:2023-05-26 04:42
本发明专利技术公开了流式语义理解方法及装置,方法包括:对所获取的语音数据流实时地进行语音识别,得到与语音数据流相对应的文本数据流;对该文本数据流实时地进行分割,得到文本数据流包含的至少一个文本片段;以及对该至少一个文本片段实时地进行语义理解,得到对至少一个文本片段的语义理解结果。本发明专利技术能够对用户的输入指令实时地进行识别,并能够对识别结果实时地进行语义理解,从而实现了流式语义理解,极大地降低了整句理解的难度以及提升了用户体验。体验。体验。

【技术实现步骤摘要】
流式语义理解方法及装置


[0001]本专利技术总体上涉及自然语言处理领域,更具体地,涉及流式语义理解方法及装置。

技术介绍

[0002]随着人工智能领域的大力发展,各种智能产品层出不穷,例如智能家居设备、车载虚拟助手等,而语音交互技术作为一种最常见的人机交互手段,已被广泛应用于各种智能产品。伴随着人们对于这种智能产品的需求量的不断增加,其配套的功能和相应的技术也需要不断地与时俱进。进而,如何更好地理解用户对智能产品发出的指令,是本领域技术人员亟待解决的技术问题。
[0003]现有的语义理解方法多采用one

by

one(一个一个地)的方法,这种方法存在效果差、用户等候时间长等问题,用户体验较差。
[0004]因此,为了解决上述问题,需要一种新型的流式语义理解方法及装置,以解决现有的语义理解方法存在的问题。

技术实现思路

[0005]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
[0006]根据本专利技术的一方面,提供了一种流式语义理解方法,所述方法包括:对所获取的语音数据流实时地进行语音识别,得到与所述语音数据流相对应的文本数据流;对所述文本数据流实时地进行分割,得到所述文本数据流包含的至少一个文本片段;以及对所述至少一个文本片段实时地进行语义理解,得到对所述至少一个文本片段的语义理解结果。
[0007]在一个实施例中,所述方法还包括:对所获取的语音数据流进行端点检测,获取所述语音数据流包含的各个语音片段之间的第一时间间隔。
[0008]在一个实施例中,其中对所述文本数据流实时地进行分割,包括:对所述文本数据流的文本序列实时地进行编码,得到所述文本序列的语义表示;基于所述文本序列的语义表示计算所述文本数据流的预测的停顿概率;以及基于所述预测的停顿概率确定所述文本数据流的停顿位置,从而在所述停顿位置处对所述文本数据流进行分割。
[0009]在一个实施例中,其中对所述文本数据流的文本序列实时地进行编码,得到所述文本序列的语义表示,包括:基于所述文本数据流的文本序列计算所述文本序列的语义向量;计算所述语义向量的注意力权重,并基于所述注意力权重计算第一上下文信息向量;以及基于所述第一上下文信息向量计算所述文本序列的语义表示。
[0010]在一个实施例中,其中基于所述预测的停顿概率确定所述文本数据流的停顿位置,包括:基于所述预测的停顿概率计算预测的第二时间间隔;以及基于所述第一时间间隔和所述第二时间间隔确定所述文本数据流的停顿位置。
[0011]在一个实施例中,其中所述语义理解结果包括意图理解结果,所述意图理解结果
包括意图文本,其中对所述至少一个文本片段进行语义理解,得到对所述至少一个文本片段的语义理解结果,包括:对所述至少一个文本片段的片段序列进行编码,得到所述片段序列对应的片段向量;以及基于注意力机制利用所述片段向量计算所述意图文本。
[0012]在一个实施例中,其中所述意图理解结果还包括意图类型,其中对所述至少一个文本片段进行语义理解,得到对所述至少一个文本片段的语义理解结果,还包括:对所述意图文本的字词混合序列进行编码,得到所述意图文本对应的意图向量;以及基于注意力机制利用所述意图向量和所述片段向量获取所述意图类型。
[0013]在一个实施例中,其中所述语义理解结果还包括槽值理解结果,其中对所述至少一个文本片段进行语义理解,得到对所述至少一个文本片段的语义理解结果,还包括:基于注意力机制利用所述意图向量和所述片段向量计算第二上下文信息向量;基于注意力机制利用所述片段向量计算第三上下文信息向量;以及将所述第二上下文信息向量、所述第三上下文信息向量与所述片段向量进行拼接以得到拼接向量,并基于所述拼接向量计算所述槽值理解结果。
[0014]根据本专利技术的另一方面,提供了一种流式语义理解装置,所述装置包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在由所述处理器运行时,使得所述处理器执行如上所述的流式语义理解方法。
[0015]根据本专利技术的又一方面,提供了一种计算机可读介质,所述计算机可读介质上存储有计算机可执行指令,所述计算机可执行指令在被执行时,执行如上所述的流式语义理解方法。
[0016]根据本专利技术实施例的流式语义理解方法及装置,能够对用户的输入指令实时地进行识别,并能够对识别结果实时地进行语义理解,从而实现了流式语义理解,极大地降低了整句理解的难度以及提升了用户体验。
附图说明
[0017]本专利技术的下列附图在此作为本专利技术的一部分用于理解本专利技术。附图中示出了本专利技术的实施例及其描述,用来解释本专利技术的原理。
[0018]附图中:
[0019]图1示出了根据本专利技术的一个实施例的流式语义理解方法的示例性步骤流程图;和
[0020]图2示出了根据本专利技术的一个实施例的流式语义理解装置的示意性结构框图。
具体实施方式
[0021]为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。
[0022]如上所述,现有的语义理解方法多采用one

by

one的方法,这种方法在用户将query(询问)指令发送给智能产品后,智能产品对该指令进行理解,然后输出语义理解结果
并进行响应。具体方法主要是获取query中包含的intent(意图)以及对应的slot(槽值)信息,例如“帮我打开车窗到一半位置”,该指令的意图为定义的“打开车窗”,slot信息为“value:一半”。通过intent和slot的搭配,就能得到该query的语义理解结果,并对其进行响应。
[0023]然而在真实场景下,大部分用户会有若干连续多意图的请求,例如:“帮我打开车窗到一半位置,顺道给我放一首我喜欢听的刘德华的歌”,“窗帘拉起来,打开空调调到22度,投影仪打开播放电影”等。然而,现有的语义理解方法,都是等到语音输入结束后,把完整的语音识别结果当做一个query指令进行语义理解。在这种情况下,one

by

one的方法存在两个问题,一是用户的query指令过长、过于复杂,导致语义理解的难度加大,效果上会大打折扣;二是等所有的query指令完全识别结束再进行语义理解,会有较长的等候时间,用户体验会差很多。
[0024]因此,为了解决现有的语义理解方法存在的上述问题,本专利技术提供了一种流式语义理解方法,该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流式语义理解方法,其特征在于,所述方法包括:对所获取的语音数据流实时地进行语音识别,得到与所述语音数据流相对应的文本数据流;对所述文本数据流实时地进行分割,得到所述文本数据流包含的至少一个文本片段;以及对所述至少一个文本片段实时地进行语义理解,得到对所述至少一个文本片段的语义理解结果。2.如权利要求1所述的方法,其特征在于,所述方法还包括:对所获取的语音数据流进行端点检测,获取所述语音数据流包含的各个语音片段之间的第一时间间隔。3.如权利要求2所述的方法,其特征在于,其中对所述文本数据流实时地进行分割,包括:对所述文本数据流的文本序列实时地进行编码,得到所述文本序列的语义表示;基于所述文本序列的语义表示计算所述文本数据流的预测的停顿概率;以及基于所述预测的停顿概率确定所述文本数据流的停顿位置,从而在所述停顿位置处对所述文本数据流进行分割。4.如权利要求3所述的方法,其特征在于,其中对所述文本数据流的文本序列实时地进行编码,得到所述文本序列的语义表示,包括:基于所述文本数据流的文本序列计算所述文本序列的语义向量;计算所述语义向量的注意力权重,并基于所述注意力权重计算第一上下文信息向量;以及基于所述第一上下文信息向量计算所述文本序列的语义表示。5.如权利要求3所述的方法,其特征在于,其中基于所述预测的停顿概率确定所述文本数据流的停顿位置,包括:基于所述预测的停顿概率计算预测的第二时间间隔;以及基于所述第一时间间隔和所述第二时间间隔确定所述文本数据流的停顿位置。6.如权利要求1所述的方法,其特征在于,其中所述语义理解结果包括意图理解结果,所述意图理解结果包括意图文本,其中对...

【专利技术属性】
技术研发人员:刘权李锐华磊王永超王士进
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1