语音识别方法、装置和介质制造方法及图纸

技术编号:24097325 阅读:112 留言:0更新日期:2020-05-09 11:03
本发明专利技术实施例提供了一种语音识别方法和装置、一种用于语音识别的装置,其中的方法具体包括:接收待识别语音数据,并确定与所述待识别语音数据相关的第一关键词;依据知识图谱,确定与所述第一关键词相关的第二关键词;对所述待识别语音数据进行解码,根据所述第一关键词和所述第二关键词,对所述待识别语音数据对应的解码路径的得分进行调整,并根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果。本发明专利技术实施例能够提升与应用场景相关的关键词对应的语音识别准确率。

Speech recognition methods, devices and media

【技术实现步骤摘要】
语音识别方法、装置和介质
本专利技术涉及通信
,特别是涉及一种语音识别方法和装置、一种机器可读介质。
技术介绍
语音识别技术能够将语音转换成为对应的字符或编码,广泛应用于智能家居、实时语音转写、机器同传等领域。其中,机器同传受限于语音识别技术及机器翻译技术,而机器翻译的质量又有赖于语音识别文本的质量;因此,为了提高机器同传的准确率,需要提高语音识别系统的质量。在一些机器同传的应用场景,经常会遇到人名、地名、产品名、或者专有名词的识别和翻译问题,而这些词往往对现场效果起到重要作用。目前的语音识别模型通常采用通用的声学模型及语言模型,优先识别出常用词及语料中出现概率较大的词。而针对一些特定应用场景,为了提高语音识别的准确率,往往需要针对该特定应用场景定制模型。定制模型的训练需要预先得到大量该应用场景的相关语料,但对于一些会议等场景,由于事先无法获得与会人员发言的具体内容,使得定制无法进行,进而使得特定应用场景下语音识别的准确率较低。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音识别方法、语音识别装置及用于语音识别的装置,本专利技术实施例能够提升与应用场景相关的关键词对应的语音识别准确率。为了解决上述问题,本专利技术公开了一种语音识别方法,包括:接收待识别语音数据,并确定与所述待识别语音数据相关的第一关键词;依据知识图谱,确定与所述第一关键词相关的第二关键词;对所述待识别语音数据进行解码,根据所述第一关键词和所述第二关键词,对所述待识别语音数据对应的解码路径的得分进行调整,并根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果。另一方面,本专利技术实施例公开了一种语音识别装置,包括:接收模块,用于接收待识别语音数据;第一关键词确定模块,用于确定与所述待识别语音数据相关的第一关键词;第二关键词确定模块,用于依据知识图谱,确定与所述第一关键词相关的第二关键词;解码处理模块,用于对所述待识别语音数据进行解码,根据所述第一关键词和所述第二关键词,对所述待识别语音数据对应的解码路径的得分进行调整,并根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果。再一方面,本专利技术实施例公开了一种用于语音识别的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收待识别语音数据,并确定与所述待识别语音数据相关的第一关键词;依据知识图谱,确定与所述第一关键词相关的第二关键词;对所述待识别语音数据进行解码,根据所述第一关键词和所述第二关键词,对所述待识别语音数据对应的解码路径的得分进行调整,并根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果。本专利技术实施例还公开了一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的方法。本专利技术实施例包括以下优点:本专利技术实施例在语音识别过程中,确定与所述待识别语音数据相关的第一关键词。第一关键词可以反映应用场景的特征,例如,第一关键词可以为会议的发言者、会议主题等。进一步,本专利技术实施例依据知识图谱,确定与上述第一关键词相关的第二关键词,可以在第一关键词的基础上进行关键词的扩充,例如,对会议的发言者对应的实体或概念、会议主题对应的实体或概念进行关键词的扩充等,由此可以增加语音识别过程中关键词的覆盖范围。由于第一关键词和第二关键词等关键词均可以反映应用场景的特征,因此本专利技术实施例依据第一关键词和第二关键词等关键词对解码路径的得分进行调整,可以提高第一关键词和第二关键词等关键词所在解码路径的得分,进而能够提升这些关键词对应的语音识别准确率。附图说明图1是本专利技术实施例的一种语音识别方法的流程的示意;图2是本专利技术的一种语音识别方法实施例一的步骤流程图;图3是本专利技术实施例的一种知识图谱的示意;图4是本专利技术的一种语音识别方法实施例二的步骤流程图;图5是本专利技术的一种语音识别方法实施例三的步骤流程图;图6是本专利技术的一种语音识别装置的结构框图;图7是本专利技术的一种用于语音识别的装置900的框图;及图8是本专利技术的一种服务端的结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术实施例可以适用于语音识别场景。语音识别场景用于将语音转换为文本,语音识别场景可以包括:语音输入场景、智能聊天场景、语音翻译场景等。声学模型采用深度神经网络模型对声学发音和基本声学单元(通常是音素)之间的映射关系进行建模;音素是根据语音的自然属性划分出来的最小语音单位。声学模型可以接收输入的语音特征,并输出语音特征对应的音素序列。参照图1,示出了本专利技术实施例的一种语音识别方法的流程的示意,语音识别方法用到的模型可以包括:声学模型、语言模型和解码器。其中,声学模型的确定过程可以包括:针对语音数据库中的语音语料进行特征提取,依据提取得到的特征进行声学模型的训练。语言模型的确定过程可以包括:依据文本数据库中的文本语料进行,进行语言模型的训练。解码器用于在给定音素序列的情况下,找到最佳的解码路径,进而可以得到语音识别结果。图1所示的语音识别过程可以包括:针对输入的语音进行特征提取,以得到语音特征,语音特征输入解码器。解码器首先利用声学模型,确定语音特征对应的音素序列;然后,依据语言模型对音素序列进行语音解码,以得到语音识别结果,并将语音识别结果对应的文本进行输出。声学模型可以包括:神经网络模型和隐马尔可夫模型,其中,神经网络模型可以向隐马尔可夫模型提供声学建模单元,声学建模单元的粒度可以包括:字、音节、音素、或者状态等;而隐马尔可夫模型可以依据神经网络模型提供的声学建模单元,确定音素序列。一个状态在数学上表征一个马尔科夫过程的状态。语音识别过程中的解码器根据待识别语音数据,在由声学模型、字典和语言模型等知识源组成的搜索空间中搜出最佳的解码路径,并依据最佳的解码路径对应的词序列得到语音识别结果。在语音识别过程中,经常会出现同音异形、或相似音词语的问题。如音节“luozhenyu”可以对应“罗振宇”、“罗震于”等词;音节“luojisiwei”可以对应“逻辑思维”、“罗辑思维”等词;音节“tongcheng”可以对应“同城”、“桐城”;音节“dedao”对应“得到”、“得道”、“得道”等词。目前的解码器通常采用通用的声学模型及语言模型,优先识别出常用词及语料中出现概率较大的词,常用词及语料中出现概率较大的词可能无法适用于特定的应用场景。而定制模型的训练需要预先得到大量该应用场景的相关语料,但对于一些会议等场景,由于本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n接收待识别语音数据,并确定与所述待识别语音数据相关的第一关键词;/n依据知识图谱,确定与所述第一关键词相关的第二关键词;/n对所述待识别语音数据进行解码,根据所述第一关键词和所述第二关键词,对所述待识别语音数据对应的解码路径的得分进行调整,并根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
接收待识别语音数据,并确定与所述待识别语音数据相关的第一关键词;
依据知识图谱,确定与所述第一关键词相关的第二关键词;
对所述待识别语音数据进行解码,根据所述第一关键词和所述第二关键词,对所述待识别语音数据对应的解码路径的得分进行调整,并根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果。


2.根据权利要求1所述的方法,其特征在于,所述确定与所述待识别语音数据相关的第一关键词,包括:
获取与所述待识别语音数据相关的文本材料,并从所述文本材料中提取第一关键词;或者
对演讲者对应的图像进行人脸识别,以得到所述演讲者对应的第一关键词。


3.根据权利要求2所述的方法,其特征在于,所述文本材料为对演示文稿对应的图像进行光学字符识别得到。


4.根据权利要求1至3中任一所述的方法,其特征在于,所述确定与所述第一关键词相关的第二关键词,包括:
依据所述第一关键词在所述知识图谱中的位置,确定与所述第一关键词相关的第二关键词。


5.根据权利要求4所述的方法,其特征在于,所述确定与所述第一关键词相关的第二关键词,包括:
若所述第一关键词对应所述知识图谱中的第一节点、且第一节点为起始节点,则依据所述知识图谱的所有节点得到第二关键词;或者
若所述第一关键词对应所述知识图谱中的第二节点、且第二节点为非起始节点,则依据所述第二节点和所述第二节点下属的节点得到第二关键词。


6.根据权利要求2所述的方法,其特征在于,所述从所述文本材料中提取第一关键词,包括:
对所述文本材料进行命名实体识别,以得到所述文本材料中的实体词。...

【专利技术属性】
技术研发人员:陈小敏张晶晶陈伟赵超王小川
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1