本发明专利技术公开了一种会议电话系统,包括:麦克风阵列,安装于会议桌,用于拾取会议桌周围若干个说话人发出的语音信号;一个或多个处理器,与所述麦克风阵列通信连接,用于根据所述声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息;以及对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。本发明专利技术实施例根据声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息,进而对处理后的语音信号进行转写,从而实现按照说话人的标识信息分类记录转写文本。
【技术实现步骤摘要】
一种会议电话系统
本专利技术涉及通信
,尤其涉及一种会议电话系统。
技术介绍
现有的技术中,例如CN110767235A,该方法中的语音输入单元仅仅通过判断最大电平的话筒输入,作为混音后的输出,方法较为简单,误识率较高,席位相邻话筒有可能有串扰,智能化程度低,此外该专利技术每个席位需配置话筒,大量的有线话筒使会议桌显得非常凌乱,走线也比较繁琐。CN112040119A方法由于声纹识别需要一定时长的语音作为输入,所以对于有些短语音无法进行识别,此外声纹识别技术用于角色分离成熟度较低,误识的概率较高。
技术实现思路
本专利技术实施例提供一种会议电话系统,利用麦克风阵列实现声源定位,在会议语音转写中将发言人角色分离,实现在会议转写记录里自动添加说话人的标识信息。本公开实施例提出一种会议电话系统,包括:麦克风阵列,安装于会议桌,用于拾取会议桌周围若干个说话人发出的语音信号;一个或多个处理器,与所述麦克风阵列通信连接,用于根据所述声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息;以及对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。在一实施例中,所述处理器,还用于根据所述麦克风阵列的安装位置以及所述会议桌的规格参数确定所述会议桌的桌面布局,并根据所述桌面布局确定各个说话人的方位角度。在一实施例中,所述处理器确定各个说话人的方位角度的流程包括:根据所述桌面布局中相邻席位的规格确定席位布局;基于所述席位布局确定会议席位的角度范围;基于会议席位的角度范围为与会人员配置相应的人员标识。在一实施例中,根据所述声源信号对说话人进行识别的过程包括:识别所述声源信号的声源方向,根据所述声源方向与所述会议席位的角度范围进行匹配,确定说话人。在一实施例中,对于任一说话人发出的语音信号,所述处理器识别所述声源信号的声源方向的流程包括:将所述语音信号分为若干子帧,其中相邻的子帧之间存在信号重叠,对各子帧进行如下处理:对所述子帧加汉宁窗处理后进行离散傅里叶变换;在离散傅里叶变换的结果中选取预设数量的感兴趣频点;计算所述感兴趣频点对应通道的协方差矩阵;基于阵元位置、信号频率及每个扫描的方向确定导向矢量;对所述协方差矩阵进行奇异值分解,以求取噪声子空间;基于所述导向矢量和所述噪声子空间利用预设算法确定谱估计函数;基于所述谱估计函数识别所述声源信号的声源方向。在一实施例中,所述处理器在任一所述感兴趣频点的能量低于预设阈值的情况下,不计算相应的协方差矩阵。在一实施例中,基于阵元位置、信号频率及每个扫描的方向确定导向矢量包括:在空间范围内以较大的第一角度间隔进行粗扫描,在粗扫描的每个方位角度以及各处理的频点上,计算导向矢量。在一实施例中,基于所述谱估计函数识别所述声源信号的声源方向包括:利用谱峰搜素算法,计算所述谱估计函数的最大值所对应的方向角;在所述方向角所确定的角度范围内,以较小的第二角度间隔进行细扫描,实现识别所述声源信号的声源方向。在一实施例中,基于所述席位布局确定会议席位的角度范围包括:根据相邻会议席位的间距,通过多项式拟合确定各会议席位的角度偏差,以获得各会议席位的角度范围。在一实施例中,在对所述语音信号进行处理后的语音信号中添加说话人的标识信息包括:在处理后的语音信号的帧头添加所述标识信息。本专利技术实施例根据声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息,进而对处理后的语音信号进行转写,从而实现按照说话人的标识信息分类记录转写文本。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本公开实施例基本流程图。图2为本公开实施例基本框架示意图。图3为本公开实施例语音转写软件框架示意图。图4为本公开实施例子流程图。图5为本公开实施例桌面布局配置子流程图。图6为本公开实施例麦克风阵列话筒结构示意图。图7为本公开实施例麦克风阵列话筒安装示意图。图8为本公开实施例麦克风阵列角度示意图。图9为本公开实施例的参会人员布局示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本公开实施例提出一种会议电话系统,如图1所示,麦克风阵列,安装于会议桌。麦克风阵列可以在步骤S101中拾取会议桌周围若干个说话人发出的语音信号。一个或多个处理器,与所述麦克风阵列通信连接,处理器可以在步骤S102中根据所述声源信号对说话人进行识别,然后在步骤S103中在处理后的语音信号中添加说话人的标识信息。最后处理器可以在步骤S104中对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。本示例中处理器可以用于运行相应的语音转写软件,如图2所示基于声源定位的说话人角色分离的会议语音自动记录装置由会议人员配置软件模块1、麦克风阵列话筒1、会议语音转写引擎2、PoE交换机3和会议语音转写配置前端4组成,会议语音转写配置前端4组成可以是计算机设备,例如笔记本电脑、PC。麦克风阵列话筒1可以采用桌面安装方式,通过标配的安装底座部件,将麦克风阵列话筒1固定安装于会议桌中央,底部输出的网线连接PoE交换机3,由PoE交换机3对麦克风阵列话筒进行供电,并通过网络传输音频数据,麦克风阵列话筒1采集并对多路音频信号进行处理,处理后在每帧语音包上加上声源方向角度ID值传送给会议语音转写引擎2和会议语音转写配置前端4。如图3所示,会议配置还可以通过会议人员配置软件5完成。当然“对多路音频信号进行处理,处理后在每帧语音包上加上声源方向角度ID值”也可以在会议语音转写引擎2和会议语音转写配置前端4中完成,在此不做具体限定。PoE交换机3搭建局域网络,并为麦阵话筒直流供电。如图3所示,会议语音转写引擎2实现会议语音的转写,会议语音转写引擎2可以包括会议语音转写软件ASR引擎21和会议语音转写软件中间件22,会议语音转写配置前端4可以并按不同说话人存储文字记录。会议语音转写配置前端4可以在接入网络后进行语音转写配置。会议语音转写引擎2中配置的语音转写软件可以采用B/S架构,PC的web前端软件实现本文档来自技高网...
【技术保护点】
1.一种会议电话系统,其特征在于,包括:/n麦克风阵列,安装于会议桌,用于拾取会议桌周围若干个说话人发出的语音信号;/n一个或多个处理器,与所述麦克风阵列通信连接,用于根据所述声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息;以及对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。/n
【技术特征摘要】
1.一种会议电话系统,其特征在于,包括:
麦克风阵列,安装于会议桌,用于拾取会议桌周围若干个说话人发出的语音信号;
一个或多个处理器,与所述麦克风阵列通信连接,用于根据所述声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息;以及对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。
2.如权利要求1所述的会议电话系统,其特征在于,所述处理器,还用于根据所述麦克风阵列的安装位置以及所述会议桌的规格参数确定所述会议桌的桌面布局,并根据所述桌面布局确定各个说话人的方位角度。
3.如权利要求2所述的会议电话系统,其特征在于,所述处理器确定各个说话人的方位角度的流程包括:
根据所述桌面布局中相邻席位的规格确定席位布局;
基于所述席位布局确定会议席位的角度范围;
基于会议席位的角度范围为与会人员配置相应的人员标识。
4.如权利要求3所述的会议电话系统,其特征在于,所述处理器,根据所述声源信号对说话人进行识别的过程包括:
识别所述声源信号的声源方向,根据所述声源方向与所述会议席位的角度范围进行匹配,确定说话人。
5.如权利要求4所述的会议电话系统,其特征在于,对于任一说话人发出的语音信号,所述处理器识别所述声源信号的声源方向的流程包括:
将所述语音信号分为若干子帧,其中相邻的子帧之间存在信号重叠,对各子帧进行如下处理:
对所述子帧加汉宁窗处理后进行离散傅里叶变换;
在离散傅里叶变换的结果中选取预设数量的...
【专利技术属性】
技术研发人员:蒋灏,穆永鹏,林林,刘帅,井祥虎,窦硕鹏,徐明浩,
申请(专利权)人:北京中电慧声科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。