持续语音人机交互方法和系统技术方案

技术编号：15106105 阅读：126 留言：0更新日期：2017-04-08 16:45

本发明专利技术公开了一种持续语音人机交互方法和系统，其中，持续语音人机交互方法，包括：接收用户输入的持续语音信号；基于长语音切分技术ModelVad将持续语音信号切分为多个短语音；基于动态语言模型对多个短语音进行识别，并为每个短语音生成对应的识别结果；基于上下文语义解析技术对识别结果进行语义补全，并生成语义补全结果；以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句。本发明专利技术实施例的持续语音人机交互方法和系统，用户只需操作一次，即可实现持续长语音的识别，通过动态语言模型可更精准地获取识别结果，提升了持续长语音的识别的准确率。另外，还能够对用户进行主动引导，提升用户使用体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人机交互
，尤其涉及一种持续语音人机交互方法和系统。
技术介绍
语音识别是一门交叉学科。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。目前，用户可通过麦克风输入语音信息，语音识别系统可对语音信息进行解析，生成对应的答案，例如著名的SIRI。但是，当前的语音识别技术，主要采用一问一答的方式，即用户输入一段语音，系统根据当前解析的内容，为该语音提供一个相应的答案。用户每次输入语音时，均需要点按一次，系统再识别一次，操作不便。另外，语音识别系统采用统一的语言模型，无法根据上下文理解用户的意图，准确率低，且无法主动向用户提问，不够智能化。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种持续语音人机交互方法，用户只需操作一次，即可实现持续长语音的识别，通过动态语言模型可更精准地获取识别结果，提升了持续长语音的识别的准确率。另外，还能够对用户进行主动引导，提升用户使用体验。本专利技术的第二个目的在于提出一种持续语音人机交互系统。为了实现上述目的，本专利技术第一方面实施例提出了一种持续语音人机交互方法，包括：接收用户输入的持续语音信号；基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音；基于动态语言模型对所述多个短语音进行识别，并为每个短语音生成对应的识别结果；基于上...

【技术保护点】
一种持续语音人机交互方法，其特征在于，包括以下步骤：接收用户输入的持续语音信号；基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音；基于动态语言模型对所述多个短语音进行识别，并为每个短语音生成对应的识别结果；基于上下文语义解析技术对所述识别结果进行语义补全，并生成语义补全结果；以及基于Agent‑Based对话管理技术生成所述语义补全结果对应的问答语句。

【技术特征摘要】
1.一种持续语音人机交互方法，其特征在于，包括以下步骤：
接收用户输入的持续语音信号；
基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音；
基于动态语言模型对所述多个短语音进行识别，并为每个短语音生成对应的识别结果；
基于上下文语义解析技术对所述识别结果进行语义补全，并生成语义补全结果；以及
基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。
2.如权利要求1所述的方法，其特征在于，所述基于长语音切分技术ModelVad将所
述持续语音信号切分为多个短语音，包括：
根据预先建立的静音模型，利用深度学习算法对所述持续语音信号的每帧语音进行识
别，以识别出静音语音；
以所述静音语音为切分点将所述持续语音信号切分为多个短语音。
3.如权利要求1所述的方法，其特征在于，所述基于动态语言模型对所述多个短语音
进行识别，并为每个短语音生成对应的识别结果，包括：
获取短语音的上下文信息；
根据所述上下文信息选择对应的动态语言模型对所述短语音进行解码，以生成所述识
别结果。
4.如权利要求3所述的方法，其特征在于，所述根据所述上下文信息选择对应的动态
语言模型对所述短语音进行解码，以生成所述识别结果，包括：
解析所述短语音的语义信息；
当所述短语音的语义信息与所述上下文信息相关时，生成对应的识别结果；
当所述短语音的语义信息与所述上下文信息无关时，过滤所述短语音。
5.如权利要求1所述的方法，其特征在于，所述基于Agent-Based对话管理技术生成
所述语义补全结果对应的问答语句，包括：
获取知识库中的待选答案；
基于有限...

【专利技术属性】
技术研发人员：吴世伟，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人