一种实时语音分离语音转写的方法技术

技术编号：36555864 阅读：14 留言：0更新日期：2023-02-04 17:10

本发明专利技术涉及计算机技术领域，具体涉及一种实时语音分离语音转写的方法，其包括:通过硬件采集模块，获得多路麦克风高频域分辨率的数字信号；通过空间语音角色分离模块得到相应的多说话人分离的输出语音信号；通过语音识别模块对所述输出语音信号进行转写，生成语音识别文本；通过话术匹配模块将实时转写多个说话人的语音转文字内容按照角色匹配话术。本发明专利技术通过将麦克风阵列内置在智能佩戴器件上，实时定位并判断出不同方向的多个人声，并实时按照不同角色说话人输出对应的说话文本，从而满足设备能有效应用于多人、同时、移动讲话的多种不同场景。同场景。同场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种实时语音分离语音转写的方法

[0001]本专利技术涉及计算机
，具体涉及一种实时语音分离语音转写的方法。

技术介绍

[0002]在类似试乘试驾、房产销售等移动场景中，需要在复杂多变的噪声场景中对双方的对话进行有效地记录和区分。
[0003]现有的智能佩戴拾音产品，只能对佩戴者固定方向的声音产生具有指向性的拾音效果，而无法对远场的说话人进行准确定位，因此无法应用于多人、同时、移动讲话的场景中。

技术实现思路

[0004]本专利技术提供一种实时语音分离语音转写的方法，通过将麦克风阵列内置在智能佩戴器件上，实时定位并判断出不同方向的多个人声，并实时按照不同角色说话人输出对应的说话文本，从而满足设备能有效应用于多人、同时、移动讲话的多种不同场景。
[0005]为了达到上述目的，本专利技术提供如下技术方案：一种实时语音分离语音转写的方法，其包括:通过硬件采集模块，获得多路麦克风高频域分辨率的数字信号；通过空间语音角色分离模块得到相应的多说话人分离的输出语音信号；通过语音识别模块对所述输出语音信号进行转写，生成语音识别文本；通过话术匹配模块将实时转写多个说话人的语音转文字内容按照角色匹配话术。
[0006]优选的，所述硬件采集模块为佩戴在人身上的麦克风拾音器，所述硬件采集模块包含电路硬件拾音模组，拾音模组中的麦克风数量为两个或多个；所述麦克风的数量被描述为MIC_NUM，并通过MIC_NUM路麦克风构成麦克风阵列，用于将空气声转为模拟电信号，经由模拟数字转换器后转换为MIC_NU...

【技术保护点】

【技术特征摘要】
1.一种实时语音分离语音转写的方法，其特征在于,包括:通过硬件采集模块，获得多路麦克风高频域分辨率的数字信号；通过空间语音角色分离模块得到相应的多说话人分离的输出语音信号；通过语音识别模块对所述输出语音信号进行转写，生成语音识别文本；通过话术匹配模块将实时转写多个说话人的语音转文字内容按照角色匹配话术。2.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述硬件采集模块为佩戴在人身上的麦克风拾音器，所述硬件采集模块包含电路硬件拾音模组，拾音模组中的麦克风数量为两个或多个；所述麦克风的数量被描述为MIC_NUM，并通过MIC_NUM路麦克风构成麦克风阵列，用于将空气声转为模拟电信号，经由模拟数字转换器后转换为MIC_NUM路采样率为16kHz的数字信号。3.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述空间语音角色分离模块由DOA声源定位，Beamformer波束成形，Spatial VAD空间语音检测，以及Post Processor后处理时域分离器构成。4.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述DOA声源定位根据...

【专利技术属性】
技术研发人员：许乾坤，赵建平，张宇韬，陈麒聪，徐远江，
申请(专利权)人：上海择言智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人