本发明专利技术实施例提出一种对话的交互方法、装置及计算机可读存储介质,所述方法包括将待识别语音转换为第一文本;将所述第一文本输入语义分析模型,得出第一文本的意图信息和词槽信息;将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息。本发明专利技术实施例利用语义分析模型直接从第一文本得出第一文本的意图信息和词槽信息。减少了现有技术语义分析模型需要连接在语言模型后的步骤,由此缩短了时间,可以更快响应用户。同时,上述方案减小计算复杂度,降低整体系统的成本。
Interactive method, device and computer readable storage medium of dialogue
【技术实现步骤摘要】
对话的交互方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种对话的交互方法、装置及计算机可读存储介质。
技术介绍
近几年,人工智能技术得到迅速地发展,与智能语音技术相关的产品已经进入到千家万户中。人们逐渐习惯了与机器对话,并且对机器的理解与应答能力有了更高的期待。主流的基于语音的对话系统框架采用自动语音识别(ASR,AutomaticSpeechRecognition)模型和自然语言理解(NLU,NaturalLanguageUnderstanding)模型。工作流程包括:首先通过ASR模型将用户的声音转换为文字,然后利用NLU模型进行语义解析,最终得到用户的意图。现有方法的主要问题在于:工作流程分为两段,一旦ASR模型识别出现误差,在采用NLU模型的时候就会将误差放大。另外,当模型较大的时候,NLU的计算量大,整体负责成本较高,且识别过程会出现延迟。
技术实现思路
本专利技术实施例提供一种对话的交互方法、装置及计算机可读存储介质,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种对话的交互方法,包括:将待识别语音转换为第一文本;将所述第一文本输入语义分析模型,得出第一文本的意图信息和词槽信息;将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息。在一种实施方式中,还包括:将所述第一文本输入语言模型,得出多个候选文本及其对应的第一置信度,所述语言模型是自动语音识别ASR模型;将第一置信度最高的候选文本作为所述第二文本。在一种实施方式中,将所述第一文本输入语义分析模型,得出第一文本的意图信息和词槽信息,包括:将所述第一文本输入语义分析模型,得出多个候选意图信息及其对应的第二置信度,所述语义分析模型是自然语言理解NLU模型;将第二置信度最高的候选意图信息作为所述第一文本的意图信息;获取所述第一文本中包括的与所述第一文本的意图信息对应的词槽信息。在一种实施方式中,将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息,包括:将所述第一文本的意图信息和词槽信息输入所述对话状态机的初始节点;筛选出所述对话状态机中符合所述第一文本的意图信息的对话路径;根据所述第一文本的词槽信息,在符合所述第一文本的意图信息的对话路径中,查找需要跳转到的下一个中间节点;利用中间节点返回交互信息。在一种实施方式中,将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息,还包括:在收到所述交互信息的应答信息的情况下,利用语义分析模型得出所述应答信息的词槽信息;将所述应答信息的词槽信息输入对话状态机的所述中间节点的下一节点。在一种实施方式中,所述对话状态机的构建包括:利用语义分析模型得出所述训练样本的意图信息;确定所述训练样本的意图信息所对应的各词槽信息;根据意图信息所对应的各词槽信息,构建意图信息包括的对话路径。在一种实施方式中,所述根据意图信息所对应的各词槽信息,构建意图信息包括的对话路径,包括:利用语义分析模型,提取与所述训练样本的意图信息对应的各词槽信息;根据各词槽信息,确定对话状态机包括的初始节点、中间节点和结束节点;根据各词槽信息,确定各节点之间的跳转关系;根据各节点及其之间的跳转关系,构建所述训练样本的意图信息包括的对话路径。第二方面,本专利技术实施例提供了一种对话的交互装置,包括:语音转换模块,用于将待识别语音转换为第一文本;意图信息和词槽信息获取模块,用于将所述第一文本输入语义分析模型,得出第一文本的意图信息和词槽信息;交互信息获取模块,用于将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息。在一种实施方式中,该装置还包括:候选文本及置信度获取模块,用于将所述第一文本输入语言模型,得出多个候选文本及其对应的第一置信度,所述语言模型是自动语音识别ASR模型;第二文本获取模块,用于将第一置信度最高的候选文本作为所述第二文本。在一种实施方式中,所述意图信息和词槽信息获取模块,包括:候选意图信息及置信度获取子模块,用于将所述第一文本输入语义分析模型,得出多个候选意图信息及其对应的第二置信度,所述语义分析模型是自然语言理解NLU模型;第一文本意图信息获取子模块,用于将第二置信度最高的候选意图信息作为所述第一文本的意图信息;第一词槽信息获取子模块,用于获取所述第一文本中包括的与所述第一文本的意图信息对应的词槽信息。在一种实施方式中,所述交互信息获取模块,包括:意图信息和词槽信息输入子模块,用于将所述第一文本的意图信息和词槽信息输入所述对话状态机的初始节点;对话路径筛选子模块,用于筛选出所述对话状态机中符合所述第一文本的意图信息的对话路径;跳转节点查找子模块,用于根据所述第一文本的词槽信息,在符合所述第一文本的意图信息的对话路径中,查找需要跳转到的下一个中间节点;交互信息返回子模块,用于利用中间节点返回交互信息。在一种实施方式中,所述交互信息获取模块,还包括:第二词槽信息获取子模块,用于在收到所述交互信息的应答信息的情况下,利用语义分析模型得出所述应答信息的词槽信息;第二词槽信息输入子模块,用于将所述应答信息的词槽信息输入对话状态机的所述中间节点的下一节点。在一种实施方式中,构建所述对话状态机包括:训练样本意图信息获取模块,用于利用语义分析模型得出所述训练样本的意图信息;词槽信息确定模块,用于确定所述训练样本的意图信息所对应的各词槽信息;对话路径构建模块,用于根据意图信息所对应的各词槽信息,构建意图信息包括的对话路径。在一种实施方式中,所述对话路径构建模块,包括:信息提取模块,用于利用语义分析模型,提取与所述训练样本的意图信息对应的各词槽信息;节点确定子模块,用于根据各词槽信息,确定对话状态机包括的初始节点、中间节点和结束节点;跳转关系确定子模块,用于根据各词槽信息,确定各节点之间的跳转关系;构建执行子模块,用于根据各节点及其之间的跳转关系,构建所述训练样本的意图信息包括的对话路径。第三方面,本专利技术实施例提供了一种对话的交互装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述装置的结构中包括处理器和存储器,所述存储器用于存储支持所述装置执行上述对话的交互的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储对话的交互装置所用的计算机软件指令,其包括用于执行上述对话的交互方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:利用语义分析模型直接从第一文本得出第一文本的意图信息和词槽信息。减少了现有技术语义分析模型需要连接在语言模型后的步骤,由此缩短了时间,可以更快响应用户。同时,上述方案减小计算复杂度,降低整体系统的成本。上述技术方案中的另一个技术方案具有如下优点或有益效果:将自动语音识别ASR模型和自然语言理解NLU模型集成在一起。采用整体思想对待识别语音进行处理,可以同时输出置信度最高的候选文本和候选意图信息。上述概述仅仅是为了说明书的目的,并不意图本文档来自技高网...
【技术保护点】
1.一种对话的交互方法,其特征在于,包括:将待识别语音转换为第一文本;将所述第一文本输入语义分析模型,得出第一文本的意图信息和词槽信息;将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息。
【技术特征摘要】
1.一种对话的交互方法,其特征在于,包括:将待识别语音转换为第一文本;将所述第一文本输入语义分析模型,得出第一文本的意图信息和词槽信息;将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息。2.根据权利要求1所述的方法,其特征在于,还包括:将所述第一文本输入语言模型,得出多个候选文本及其对应的第一置信度,所述语言模型是自动语音识别ASR模型;将第一置信度最高的候选文本作为第二文本。3.根据权利要求1所述的方法,其特征在于,将所述第一文本输入语义分析模型,得出第一文本的意图信息和词槽信息,包括:将所述第一文本输入语义分析模型,得出多个候选意图信息及其对应的第二置信度,所述语义分析模型是自然语言理解NLU模型;将第二置信度最高的候选意图信息作为所述第一文本的意图信息;获取所述第一文本中包括的与所述第一文本的意图信息对应的词槽信息。4.根据权利要求1所述的方法,其特征在于,将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息,包括:将所述第一文本的意图信息和词槽信息输入所述对话状态机的初始节点;筛选出所述对话状态机中符合所述第一文本的意图信息的对话路径;根据所述第一文本的词槽信息,在符合所述第一文本的意图信息的对话路径中,查找需要跳转到的下一个中间节点;利用中间节点返回交互信息。5.根据权利要求1所述的方法,其特征在于,将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息,还包括:在收到所述交互信息的应答信息的情况下,利用语义分析模型得出所述应答信息的词槽信息;将所述应答信息的词槽信息输入对话状态机的所述中间节点的下一节点。6.根据权利要求1所述的方法,其特征在于,所述对话状态机的构建包括:利用语义分析模型得出训练样本的意图信息;确定所述训练样本的意图信息所对应的各词槽信息;根据意图信息所对应的各词槽信息,构建意图信息包括的对话路径。7.根据权利要求6所述的方法,其特征在于,所述根据意图信息所对应的各词槽信息,构建意图信息包括的对话路径,包括:利用语义分析模型,提取与所述训练样本的意图信息对应的各词槽信息;根据所述各词槽信息,确定对话状态机包括的初始节点、中间节点和结束节点;根据所述各词槽信息,确定各节点之间的跳转关系;根据各节点及其之间的跳转关系,构建所述训练样本的意图信息包括的对话路径。8.一种对话的交互装置,其特征在于,包括:语音转换模块,用于将待识别语音转换为第一文本;意图信息和词槽信息获取模块,用于将所述第一文本输入语义分析模型,得出第一文本的意图信息和词槽信息;交互信息获取模块,用于将所述第一文本的意图信息和词槽信息输入对话状态机,得出所述第一文本对应的交互信息。9.根据权利要求8所述的装置,其特征在于,还包括:候...
【专利技术属性】
技术研发人员:许云飞,陈果果,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。