本发明专利技术涉及语音通信技术领域,提供一种可实现智能会议纪要的在线会议转写方法,包括通过麦克风阵列实时采集会议过程中各个发言者的音频数据,并对采集到的音频信号进行初步处理;对音频信号进行声源定位并根据声源定位结果确定音频信号的来源方向;对音频信号进行声纹识别提取发言者的语音频谱特征,并根据声纹识别结果对发言人的声纹进行标记;将加权后的所述音频信号用于文字转写,定位所述发言者来生成完整的会议纪要。有效解决传统音频转写系统中无法精准识别多个发言者、区分发言内容和减少人工校对工作的问题,提高会议记录的准确性和效率。
【技术实现步骤摘要】
本专利技术涉及语音通信,尤其涉及一种可实现智能会议纪要的在线会议转写方法及系统。
技术介绍
1、随着全球化和信息技术的迅速发展,远程工作和混合型办公推动了企业通信和协作市场的快速增长。云计算、人工智能等先进技术的应用不仅使得云会议、云软件平台和视频会议解决方案的需求激增,促进相关硬件设备的开发和普及。在这种背景下,中小型会议室和开放式会议空间等协作空间的增长,推动了音频会议终端的需求不断增加。会议音箱以及低成本和使用便捷性的即插即用解决方案实现快速增长。
2、在会议内容的处理方面,有效率且高质量的整理视频、音频和文字信息变得越来越重要。会议转写,即实时将会议中的语音转换为文字记录,已成为行业的基本需求。这项技术的应用涵盖了会议、培训、采访等多种场景,要求生成的文字材料不仅完整,还需配有相应的字幕。市场对视频会议的需求激增同时也带来了竞争加剧,各类企业包括视频会议硬件厂商、音频品牌、解决方案供应商、信号或语音传输系统厂商、dsp厂商、显示屏和安防厂商以及ai语音识别厂商等纷纷进入这一市场。这些企业的加入促使原本由音频和视频会议vc提供商主导的市场向多元化厂商共同推进产业发展模式转变。
3、然而,尽管技术在不断进步,现有的会议音频系统仍面临多个挑战:
4、(1)环境噪音抑制的局限性:对于阵列麦克风会议音箱,由于应用场景及成本限制,基于算法可实现一定效果的环境噪音抑制,但依然无法满足文字转写要求。
5、(2)长语音识别的不准确性以及语音识别后导出的文字是没有时间戳,没有分段的。
<
p>6、(3)对于会议中不同发言者的语音识别,基本无法进行很好区分。导致后续文字校对工作需要投入更多人力。
技术实现思路
1、专利技术的目的是针对上述技术问题,提出一种可实现智能会议纪要的在线会议转写方法及系统,解决了多发言者区分困难、语音识别准确率低、人工校对工作量大等问题,本专利技术的目的可通过下列技术方案来实现:
2、本专利技术提供了一种可实现智能会议纪要的在线会议转写方法,包括以下步骤:
3、步骤s100:通过麦克风阵列实时采集会议过程中各个发言者的音频数据,并对采集到的音频信号进行初步处理;
4、步骤s200:基于音频信号的初步处理过程中,计算每个麦克风接收到音频信号的时间差,对音频信号进行声源定位并根据声源定位结果确定音频信号的来源方向;
5、步骤s300:对音频信号进行声纹识别提取发言者的语音频谱特征,并根据声纹识别结果对发言人的声纹进行标记;
6、步骤s400:基于声源识别结果和声纹识别结果,计算每帧音频信号的加权系数,并对每帧音频信号进行加权处理,实现对声源定位标签和声纹标签信息的选择和融合;
7、步骤s500:将加权后的音频信号用于文字转写,定位发言者来生成完整的会议纪要。
8、进一步地,步骤s100包括:
9、步骤s110:通过麦克风阵列中的麦克风持续且同步的采集音频信号,用于获取会议过程中所有发言者的音频数据;
10、步骤s120:对采集到的音频信号进行初步处理,包括回声消除、声学环境降噪和自动增益。
11、进一步地,步骤s200包括:
12、步骤s210:基于音频信号中不同麦克风接收到的时间差,通过差分时间算法计算出音频信号的来源方向;
13、步骤s220:根据声源定位结果,调整麦克风阵列的相位阵列,优化目标方向的信号质量,同时通过坡率成形和功率谱估计对音频信号进行增强提高音频信号的定位准确度;
14、步骤s230:将声源定位标签与实时的音频帧进行对应,标记每帧音频数据的声源定位标签,用于后续音频处理时根据声源定位标签对音频信息进行分类,其中声源定位标签为vdoa=f(vt)。
15、进一步地,步骤s300包括:
16、步骤s310:从音频信号中提取语音频谱特征,捕捉声音的特征信息,包括音高、音色和语速,并为每个发言者生成唯一的声纹模型;
17、步骤s320:基于提取的语音频谱特征与与声纹模型进行比对,并通过比对结果,给每个发言者分配唯一的声纹标签,标记发言者的声音特征,声纹标签为pvp=f(pt);其中,
18、当数据量不足或标记失败时,声纹标签pt设置为0;
19、当声纹标记成功时,pt={p1,p2,p3,......,pδ,},δ为大于0的自然数。
20、进一步地,在步骤s400中,针对每帧音频信号,加权处理中加权子项公式为,
21、;
22、;
23、其中,表示每帧音频信号的时间戳,表示当前时间戳的声纹标签的值,表示当前时间戳的声源定位标签的值。
24、基于相同的专利技术构思,本专利技术提供了一种可实现智能会议纪要的在线会议转写系统,采用如上述的在线会议转写方法,包括:
25、音频采集模块,用于通过麦克风阵列实时采集会议过程中各个发言者的音频数据,并对采集到的音频信号进行初步处理;
26、声源定位模块,用于基于音频信号的初步处理过程中,计算每个麦克风接收到音频信号的时间差,对音频信号进行声源定位并根据声源定位结果确定音频信号的来源方向;
27、声纹识别模块,用于对音频信号进行声纹识别提取发言者的语音频谱特征,并根据声纹识别结果对发言人的声纹进行标记;
28、数据处理模块,用于基于声源识别结果和声纹识别结果,计算每帧音频信号的加权系数,并对每帧音频信号进行加权处理,实现对声源定位标签和声纹标签信息的选择和融合;将加权后的音频信号用于文字转写,定位发言者来生成完整的会议纪要。
29、进一步地,音频采集模块包括:
30、采集单元,用于通过麦克风阵列中的麦克风持续且同步的采集音频信号,用于获取会议过程中所有发言者的音频数据;
31、预处理单元,用于对采集到的音频信号进行初步处理,包括回声消除、声学环境降噪和自动增益。
32、进一步地,声源定位模块包括:
33、计算单元,用于基于音频信号中不同麦克风接收到的时间差,通过差分时间算法计算出音频信号的来源方向;
34、定位单元,用于根据声源定位结果,调整麦克风阵列的相位阵列,优化目标方向的信号质量,同时通过坡率成形和功率谱估计对音频信号进行增强提高音频信号的定位准确度;
35、标记单元:用于将声源定位标签与实时的音频帧进行对应,标记每帧音频数据的声源定位标签,用于后续音频处理时根据声源定位标签对音频信息进行分类,其中声源定位标签为vdoa=f(vt)。
36、进一步地,声纹识别模块包括:
37、特征提取单元,用于从音频信号中提取语音频谱特征,捕捉声音的特征信息,包括音高、音色和语速,并为每个发言者生成唯一的声纹模型;
38、匹配标记单元,用于基于提取的语音频谱特征与与声纹模型进行比对,并通过比对结果,给本文档来自技高网
...
【技术保护点】
1.一种可实现智能会议纪要的在线会议转写方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的在线会议转写方法,其特征在于,所述步骤S100包括:
3.根据权利要求1所述的在线会议转写方法,其特征在于,所述步骤S200包括:
4.根据权利要求1所述的在线会议转写方法,其特征在于,所述步骤S300包括:
5.根据权利要求3或4所述的在线会议转写方法,其特征在于,在步骤S400中,针对每帧所述音频信号,加权处理中加权子项公式为,
6.一种可实现智能会议纪要的在线会议转写系统,采用如权利要求1至5所述的在线会议转写方法,其特征在于,包括:
7.根据权利要求6所述的智能补货分析方法,其特征在于,所述音频采集模块包括:
8.根据权利要求6所述的智能补货分析方法,其特征在于,所述声源定位模块包括:
9.根据权利要求6所述的智能补货分析方法,其特征在于,所述声纹识别模块包括:
10.根据权利要求8或9所述的智能补货分析方法,其特征在于,针对每帧所述音频信号,加权处理中加权子项公式为,
...
【技术特征摘要】
1.一种可实现智能会议纪要的在线会议转写方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的在线会议转写方法,其特征在于,所述步骤s100包括:
3.根据权利要求1所述的在线会议转写方法,其特征在于,所述步骤s200包括:
4.根据权利要求1所述的在线会议转写方法,其特征在于,所述步骤s300包括:
5.根据权利要求3或4所述的在线会议转写方法,其特征在于,在步骤s400中,针对每帧所述音频信号,加权处理中加权子项公式为,
6....
【专利技术属性】
技术研发人员:王淞,
申请(专利权)人:深聪半导体江苏有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。