本发明专利技术公开了一种持续语音人机交互方法和系统,其中,持续语音人机交互方法,包括:接收用户输入的持续语音信号;基于长语音切分技术ModelVad将持续语音信号切分为多个短语音;基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果;基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果;以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句。本发明专利技术实施例的持续语音人机交互方法和系统,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。
【技术实现步骤摘要】
本专利技术涉及人机交互
,尤其涉及一种持续语音人机交互方法和系统。
技术介绍
语音识别是一门交叉学科。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。目前,用户可通过麦克风输入语音信息,语音识别系统可对语音信息进行解析,生成对应的答案,例如著名的SIRI。但是,当前的语音识别技术,主要采用一问一答的方式,即用户输入一段语音,系统根据当前解析的内容,为该语音提供一个相应的答案。用户每次输入语音时,均需要点按一次,系统再识别一次,操作不便。另外,语音识别系统采用统一的语言模型,无法根据上下文理解用户的意图,准确率低,且无法主动向用户提问,不够智能化。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种持续语音人机交互方法,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。本专利技术的第二个目的在于提出一种持续语音人机交互系统。为了实现上述目的,本专利技术第一方面实施例提出了一种持续语音人机交互方法,包括:接收用户输入的持续语音信号;基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果;基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。本专利技术实施例的持续语音人机交互方法,通过接收用户输入的持续语音信号,基于长语音切分技术ModelVad将持续语音信号切分为多个短语音,基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。本专利技术第二方面实施例提出了一种持续语音人机交互系统,包括:接收模块,用于接收用户输入的持续语音信号;切分模块,用于基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;识别模块,用于基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果;语义补全模块,用于基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及生成模块,用于基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。本专利技术实施例的持续语音人机交互系统,通过接收用户输入的持续语音信号,基于长语音切分技术ModelVad将持续语音信号切分为多个短语音,基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。附图说明图1是根据本专利技术一个实施例的快速切换网页的方法的流程图。图2是根据本专利技术一个实施例的持续语音人机交互系统的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的快速切换网页的方法和系统。图1是根据本专利技术一个实施例的快速切换网页的方法的流程图。如图1所示,快速切换网页的方法可包括:S1,接收用户输入的持续语音信号。具体地,可接收用户输入的持续语音信号。现有技术中,用户主要通过客户端点击录音按键,输入语音,再松开录音按键,输入结束,语音识别系统再对语音进行识别。每次输入均要执行相同的操作,十分不便。而在本专利技术的实施例中,用户只需点击一次录音按键,即可输入持续的语音信号,人机交互系统可智能地对语音信号进行切分,分段进行识别,无需用户多次重复操作。S2,基于长语音切分技术ModelVad将持续语音信号切分为多个短语音。具体地,可根据预先建立的静音模型,利用深度学习算法对持续语音信号的每帧语音进行识别,以识别出静音语音,再将静音语音作为切分点将持续语音信号切分为多个短语音,从而实现持续语音的切分,化整为零,分别对短语音进行识别。S3,基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果。具体地,可获取短语音的上下文信息,然后根据上下文信息选择对应的动态语言模型对短语音进行解码,以生成识别结果。更具体地,可解析短语音的语义信息。当短语音的语义信息与上下文信息相关时,生成对应的识别结果,即与上下文相关信息相关时,通过正模型对短语音进行解码,生成对应的识别结果。当短语音的语义信息与上下文信息无关时,过滤短语音,即与上下文信息无关时,通过噪音模型对短语音进行解码,从而过滤掉短语音。根据上述方法,可有效地关注交互主题,吸收噪音和语义无关的输入,减少了噪音对识别结果的干扰。举例来说,用户在与人机交互系统进行交互的时候,系统提问“您想在哪个城市订酒店?”,其期待用户的回答是城市的名称,因此可构造一个由城市名称组成的语言模型,以此为相关的问题提供合适的待选答案,减少搜索的时间,提升准确率以及人机交互系统的响应速度。S4,基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果。具体地,在持续的人机交互过程中,用户输入的可能只是一个简单的短语音,但是包含了上下文的语义。例如:酒店预订时,系统在询问用户想入住哪个城市时,用户回答北京,其完整语义为想预定北京的酒店,由此可根据上下文语义解析技术对识别结果进行语义补全,从而生成语义补全结果,使得用户意图更加明确。S5,基于Agent-Based对话管理技术生成语义补全结果对应的问答语句。具体地,可获取知识库中的待选答案,然后基于有限状态机FST从待选答案中选择与语义补全结果音对应的跳转概率最大的问答语句。更本文档来自技高网...
【技术保护点】
一种持续语音人机交互方法,其特征在于,包括以下步骤:接收用户输入的持续语音信号;基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果;基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及基于Agent‑Based对话管理技术生成所述语义补全结果对应的问答语句。
【技术特征摘要】
1.一种持续语音人机交互方法,其特征在于,包括以下步骤:
接收用户输入的持续语音信号;
基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;
基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果;
基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及
基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。
2.如权利要求1所述的方法,其特征在于,所述基于长语音切分技术ModelVad将所
述持续语音信号切分为多个短语音,包括:
根据预先建立的静音模型,利用深度学习算法对所述持续语音信号的每帧语音进行识
别,以识别出静音语音;
以所述静音语音为切分点将所述持续语音信号切分为多个短语音。
3.如权利要求1所述的方法,其特征在于,所述基于动态语言模型对所述多个短语音
进行识别,并为每个短语音生成对应的识别结果,包括:
获取短语音的上下文信息;
根据所述上下文信息选择对应的动态语言模型对所述短语音进行解码,以生成所述识
别结果。
4.如权利要求3所述的方法,其特征在于,所述根据所述上下文信息选择对应的动态
语言模型对所述短语音进行解码,以生成所述识别结果,包括:
解析所述短语音的语义信息;
当所述短语音的语义信息与所述上下文信息相关时,生成对应的识别结果;
当所述短语音的语义信息与所述上下文信息无关时,过滤所述短语音。
5.如权利要求1所述的方法,其特征在于,所述基于Agent-Based对话管理技术生成
所述语义补全结果对应的问答语句,包括:
获取知识库中的待选答案;
基于有限...
【专利技术属性】
技术研发人员:吴世伟,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。