本发明专利技术提供一种语音识别装置和拾音设备,其中语音识别装置包括CPU和NPU,CPU和NPU通信连接,NPU上加载有语音识别模型,语音识别模型基于样本音频和样本音频的识别文本训练得到;CPU用于确定待识别音频;NPU用于运行语音识别模型,确定待识别音频的语音识别结果,将语音识别结果传输至CPU。本发明专利技术提供的语音识别装置和拾音设备,结合NPU的强大算力,在语音识别装置中部署了本地的语音识别模型,基于该语音识别模型对待识别音频进行离线语音识别,从而实现了高可靠度和高识别效率的本地离线识别,本地离线识别无需依赖网络,数据更加安全,也不存在网络传输带来的延时问题,识别显示更加及时流畅,有助于优化用户体验。有助于优化用户体验。有助于优化用户体验。
【技术实现步骤摘要】
语音识别装置和拾音设备
[0001]本专利技术涉及人工智能
,尤其涉及一种语音识别装置和拾音设备。
技术介绍
[0002]录音笔凭借携带方便、操作简单等优点,被广泛应用于会议、演讲记录、采访和课堂等场合。
[0003]然而,目前市面上的主流录音笔为传统录音笔,传统录音笔专注于录音本身,录音后需要用户自主将声音整理成文字,效率低下,而且重复的工作量很大。另外,部分录音笔通过把录音文件导出后,依托网络引擎进行识别,步骤复杂,体验不佳,而且安全风险也较高。
技术实现思路
[0004]本专利技术提供一种语音识别装置和拾音设备,用以解决现有技术中识别效率低下的问题。
[0005]本专利技术提供一种语音识别装置,包括中央处理器CPU和嵌入式神经网络处理器NPU,所述CPU和所述NPU通信连接,所述NPU上加载有语音识别模型,所述语音识别模型基于样本音频和所述样本音频的识别文本训练得到;
[0006]所述CPU用于确定待识别音频;
[0007]所述NPU用于运行所述语音识别模型,确定所述待识别音频的语音识别结果,并将所述语音识别结果传输至所述CPU。
[0008]根据本专利技术提供的一种语音识别装置,所述NPU具体用于:
[0009]运行所述语音识别模型中的声学模型,确定所述待识别音频的声学特征,并基于所述声学特征确定所述待识别音频的声学语音识别结果,所述声学模型是对云端声学模型进行知识蒸馏得到的。
[0010]根据本专利技术提供的一种语音识别装置,所述NPU具体还用于:
[0011]运行所述语音识别模型中的解码模型,对所述声学特征进行解码,得到所述待识别音频的生成式语音识别结果。
[0012]根据本专利技术提供的一种语音识别装置,所述NPU具体还用于:
[0013]对所述声学语音识别结果和所述生成式语音识别结果进行融合,生成语音识别文本,将所述语音识别文本作为所述语音识别结果传输至所述CPU。
[0014]根据本专利技术提供的一种语音识别装置,所述NPU具体还用于:
[0015]分别将所述声学语音识别结果和所述生成式语音识别结果传输至所述CPU;
[0016]所述CPU还用于:
[0017]对所述声学语音识别结果和所述生成式语音识别结果进行融合,生成语音识别结果。
[0018]根据本专利技术提供的一种语音识别装置,所述CPU还用于:基于设备能耗状态、设备
发热状态和所述待识别音频的数据规格中的至少一种,确定所述语音识别模型的运算资源;
[0019]所述NPU具体用于:调用所述运算资源运行所述语音识别模型,确定所述待识别音频的语音识别结果,并将所述语音识别结果传输至所述CPU。
[0020]根据本专利技术提供的一种语音识别装置,还包括存储单元,所述存储单元用于存储所述待识别音频;
[0021]所述CPU还用于:基于所述待识别音频的数据量和所述存储单元的存储量,确定所述待识别音频的数据规格。
[0022]根据本专利技术提供的一种语音识别装置,所述CPU具体用于:
[0023]确定初始音频的来源为与所述CPU连接的麦克风阵列,则将所述初始音频进行麦克风阵列降噪,得到所述待识别音频。
[0024]根据本专利技术提供的一种语音识别装置,所述CPU和所述NPU集成设置在同一芯片上。
[0025]本专利技术还提供一种拾音设备,包括:
[0026]主壳体;
[0027]拾音器,所述拾音器安装于所述主壳体;
[0028]语音识别装置,所述语音识别装置与所述拾音器电连接。
[0029]本专利技术提供的语音识别装置和拾音设备,结合嵌入式神经网络处理器的强大算力,在语音识别装置中部署了本地的语音识别模型,基于该语音识别模型对待识别音频进行离线语音识别,从而实现了高可靠度和高识别效率的本地离线识别,本地离线识别无需依赖网络,数据更加安全,也不存在网络传输带来的延时问题,识别显示更加及时流畅,有助于优化用户体验。
附图说明
[0030]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是本专利技术提供的语音识别装置的结构示意图之一;
[0032]图2是本专利技术提供的语音识别装置的结构示意图之二;
[0033]图3是本专利技术提供的语音识别装置的结构示意图之三;
[0034]图4是本专利技术提供的语音识别装置的结构示意图之四;
[0035]图5是本专利技术提供的拾音设备的结构示意图之一;
[0036]图6是本专利技术提供的拾音设备的结构示意图之二;
[0037]附图标记:
[0038]1‑
CPU;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ2‑
NPU;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
21
‑
声学模型;
[0039]22
‑
解码模型;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ3‑
全向麦克风阵列;
ꢀꢀꢀꢀ4‑
定向麦克风阵列;
[0040]5‑
麦克风采集系统;
ꢀꢀꢀꢀ6‑
电源管理单元;
ꢀꢀꢀꢀꢀꢀ7‑
按键阵列;
[0041]8‑
触控单元;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ9‑
显示单元;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
10
‑
主壳体;
[0042]11
‑
拾音器;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
12
‑
语音识别装置;
ꢀꢀꢀꢀꢀ
71
‑
音量键;
[0043]72
‑
开机键;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
73
‑
录音键;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
74
‑
导航键;
[0044]75
‑
Type
‑
C接口。
具体实施方式
[0045]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0046]目前,市面上的主流录音笔为传统录音笔,传统录音笔的功能局限于录音层面,若要将声音转换为文字,则需在录音完成后由人工将录制的音频文件转换为文字,显然,此种仅具备单一功能的传统录音笔限制了用户使用时的灵活性,不仅会导致使用效率低下,还会造成额外的重复性工作,大量耗费了用户的时间和精力。
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音识别装置,其特征在于,包括中央处理器CPU和嵌入式神经网络处理器NPU,所述CPU和所述NPU通信连接,所述NPU上加载有语音识别模型,所述语音识别模型基于样本音频和所述样本音频的识别文本训练得到;所述CPU用于确定待识别音频;所述NPU用于运行所述语音识别模型,确定所述待识别音频的语音识别结果,并将所述语音识别结果传输至所述CPU。2.根据权利要求1所述的语音识别装置,其特征在于,所述NPU具体用于:运行所述语音识别模型中的声学模型,确定所述待识别音频的声学特征,并基于所述声学特征确定所述待识别音频的声学语音识别结果,所述声学模型是对云端声学模型进行知识蒸馏得到的。3.根据权利要求2所述的语音识别装置,其特征在于,所述NPU具体还用于:运行所述语音识别模型中的解码模型,对所述声学特征进行解码,得到所述待识别音频的生成式语音识别结果。4.根据权利要求3所述的语音识别装置,其特征在于,所述NPU具体还用于:对所述声学语音识别结果和所述生成式语音识别结果进行融合,生成语音识别文本,将所述语音识别文本作为所述语音识别结果传输至所述CPU。5.根据权利要求3所述的语音识别装置,其特征在于,所述NPU具体还用于:分别将所述声学语音识别结果和所述生成式语音识别结果传输至...
【专利技术属性】
技术研发人员:王志军,崔浩然,周天甲,
申请(专利权)人:天津讯飞极智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。