The invention provides a method, device, device and computer readable medium for matching speech and text. The method includes: recognizing the received speech signal and acquiring speech recognition text; matching speech recognition text with multiple candidate texts first; matching speech recognition text with multiple candidate texts second when the first matching is unsuccessful. The embodiment of the present invention can accelerate the matching speed and improve the fluency of the voice interaction process by precise matching and fuzzy matching of Pinyin in turn. Furthermore, through sentence vector matching, semantic similarity matching can be carried out in the case of precise matching and fuzzy matching failure of Pinyin, so that the real intention of users can be more accurately matched.
【技术实现步骤摘要】
语音与文本匹配的方法、装置、设备及计算机可读介质
本专利技术涉及人工智能领域,尤其涉及一种语音与文本匹配的方法及装置、设备和计算机可读介质。
技术介绍
随着语音技术的发展,现有越来越多的场景中自动识别语音命令。例如,用户可以在一些游戏中,用户可以通过语音输入,从而使游戏人物执行某一些游戏技能。然而目前在对用户语音和文字进行匹配时,一般只是通过简单的正则匹配或者改写等,来“套”用户的语音输入,然后得到对应的意图。当匹配和改写都没有命中的时候,一般就返回“我没能理解,请再说一般”之类的兜底话术。中国语言本身博大精深千变万化,再加上各地的口音不尽相同,即使是同一句话,识别的结果也可能完全不同。因此,通过正则匹配或者改写的方法,得到的数据十分有限,很难可以真正匹配上识别的结果。就会导致设备不断地向用户提问,问用户究竟想做什么。语音交互游戏的流畅度差,用户体验不好。
技术实现思路
本专利技术实施例提供一种语音与文本匹配的方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种语音与文本匹配的方法,包括:对接收的语音信号进行识别,获取语音识别文本;将语音识别文本与多项候选文本进行第一匹配;当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。在一种实施方式中,所述方法还包括:当第一匹配或拼音的第二匹配成功时,输出匹配到的候选文本。在一种实施方式中,所述方法还包括:当拼音的第二匹配不成功时,计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项。在一种实施方式中,所述将语音 ...
【技术保护点】
1.一种语音与文本匹配的方法,其特征在于,包括:对接收的语音信号进行识别,获取语音识别文本;将语音识别文本与多项候选文本进行第一匹配;当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。
【技术特征摘要】
1.一种语音与文本匹配的方法,其特征在于,包括:对接收的语音信号进行识别,获取语音识别文本;将语音识别文本与多项候选文本进行第一匹配;当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。2.根据权利要求1所述的方法,其特征在于,还包括:当第一匹配或拼音的第二匹配成功时,输出匹配到的候选文本。3.根据权利要求1所述的方法,其特征在于,还包括:当拼音的第二匹配不成功时,计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项。4.根据权利要求1所述的方法,其特征在于,所述将语音识别文本与多项候选文本逐个进行拼音的第二匹配,包括:将语音识别文本和多项候选文本都转化为拼音;计算语音识别文本和多项候选文本的拼音的相似度;获取相似度最大的候选文本,当所述候选文本大于设定阈值时,则作为匹配的候选文本进行输出。5.根据权利要求4所述的方法,其特征在于,所述计算语音识别文本和候选文本的各个选项的拼音的相似度,采用以下公式进行计算:其中s表示候选文本的选项的拼音,q代表语音识别文本的拼音,LCS(s,q)表示候选文本的拼音和语音识别文本的拼音之间最长公共序列的长度,len(s)表示候选文本的拼音的长度。6.根据权利要求3所述的方法,其特征在于,所述计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项,包括:将语音识别文本和多项候选文本进行分词操作;获取分词后的每个词语的词向量;将语音识别文本的词向量进行相加,获得语音识别文本的句子向量,以及将每项候选文本的词向量相加,分别获取各项候选文本的句子向量;计算语音识别文本的句子向量和各项候选文本的矩形向量的余弦相似度,获取余弦相似度最大的候选文本。7.一种语音与文本匹配的装置,其特征在于,包括:识别模块,用于对接收的语音信号进行识别,获取语音识别文本;第一匹配模块,用于将语音识别文本与多项候选文本进行第一匹配;第二匹配模块,用于当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。8.根...
【专利技术属性】
技术研发人员:陆永帅,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。