基于多音区的会议记录方法及装置制造方法及图纸

技术编号：43176951 阅读：23 留言：0更新日期：2024-11-01 20:04

本发明专利技术实施例提供了一种基于多音区的会议记录方法，该方法包括：对多音区所采集的语音进行音区定位以确定各音区的位置信息，并对所采集的语音进行音源分离以提取各音区的语音；对各音区的语音进行语音识别生成与各音区对应的文本信息，以及对各音区的语音进行声纹识别以确定各音区的发言人身份；基于所述发言人身份和各音区的位置信息以及所述文本信息生成会议记录。通过本发明专利技术，解决了目前多音区会议场景下无法有效生成会议记录的问题，进而达到了有效生成有明确对应关系的发言人信息和文本信息的会议记录的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及通信领域，具体而言，涉及一种基于多音区的会议记录方法及装置。

技术介绍

1、相关技术中关于会议系统的技术有两种，一种是基于多音区的会议系统，另一种是会议记录系统。

2、相关技术中多音区会议系统以描述座舱会议系统为主，不涉及会议记录系统。存在的问题是座舱信号不稳定，视频或者语音会议会受到信号不佳的影响；座舱噪音复杂，容易出现听不清发言人的情况；座舱会议也不适合做手写或者打字记录会议。

3、相关技术中会议记录系统主要是利用声纹聚类技术(从一个连续的多人说话的语音中切分出不同说话人的片段，并且判断出每个片段是哪个说话人的过程)识别发言人身份信息。存在的问题是声纹技术在远场场景下(即说话人距离麦克风比较远的情况下)容易受到噪声、混响(声波在房间内反射)等的干扰，声纹识别准确率会严重下降；此外，如果出现多人同时讲话的情况(鸡尾酒会效应)，声纹识别和语音识别准确率会受到严重影响；最后，这一类会议记录系统通过云端服务器进行语音识别，不适合汽车座舱等信号不稳定的场景。

技术实现思路

1、本专利技术实施例提供了一种基于多音区的会议记录方法及装置，以至少解决相关技术中多音区会议场景下无法有效生成会议记录的问题。

2、根据本专利技术的一个实施例，提供了一种基于多音区的会议记录方法，包括：对多音区所采集的语音进行音区定位以确定各音区的位置信息，并对所采集的语音进行音源分离以提取各音区的语音；对各音区的语音进行语音识别生成与各音区对应的文本信息，以及对

3、在一个示例性实施例中，对各音区的语音进行声纹识别以确定各音区的发言人身份，包括：对各音区的语音进行声纹特征提取，将提取得到的第一声纹特征与声纹库中的全部声纹特征进行比对以确认发言人身份。

4、在一个示例性实施例中，将提取得到的第一声纹特征与声纹库中的全部声纹特征进行比对，包括：所述第一声纹特征与声纹库中的全部声纹特征进行比对，计算相似度得分，按照相似度得分从高到低排序，声纹库中得分最高且超过预设阈值的声纹特征与第一声纹特征匹配成功。

5、根据本专利技术的另一个实施例，提供了一种基于多音区的会议记录装置，包括：分离模块，用于对多音区所采集的语音进行音区定位以确定各音区的位置信息，并对所采集的语音进行音源分离以提取各音区的语音；确定模块，用于对各音区的语音进行语音识别生成与各音区对应的文本信息，以及对各音区的语音进行声纹识别以确定各音区的发言人身份；生成模块，用于基于所述发言人身份和各音区的位置信息以及所述文本信息生成会议记录。

6、在一个示例性实施例中，所述确定模块还包括：比对单元，用于对各音区的语音进行声纹特征提取，将提取得到的第一声纹特征同声纹库中的全部声纹特征进行比对以确认发言人身份。

7、在一个示例性实施例中，所述确定模块还用于：将所述第一声纹特征与声纹库中的全部声纹特征进行比对，计算相似度得分，按照相似度得分从高到低排序，声纹库中得分最高且超过预设阈值的声纹特征与第一声纹特征匹配成功。

8、根据本专利技术的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

9、根据本专利技术的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

10、通过本专利技术，由于采用了发言人身份加位置的双重认证技术手段，对识别出的各音区的语音信息进行了声纹识别以确认发言人身份，即使在声纹识别不准确，无法识别出发言人身份信息的情况下，各音区的位置信息也可以作为发言人信息，进而生成有效的会议记录。因此，可以解决目前对于多音区场景无法生成文本会议记录，以及相关技术中会议记录方式在声纹识别不准确的情况下便无法生成有效的会议记录的问题，达到在多音区场景下通过发言人身份和位置的双重认证生成会议记录文本的效果。

本文档来自技高网...

【技术保护点】

1.一种基于多音区的会议记录方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对多音区所采集的语音进行音区定位之前，还包括：

3.根据权利要求1所述的方法，其特征在于，对各音区的语音进行语音识别，包括：

4.根据权利要求1所述的方法，其特征在于，对各音区的语音进行声纹识别以确定各音区的发言人身份，包括：

5.根据权利要求4所述的方法，其特征在于，将提取得到的第一声纹特征与声纹库中的全部声纹特征进行比对，包括：

6.根据权利要求1所述的方法，其特征在于，基于所述发言人身份和各音区的位置信息以及所述文本信息生成会议记录，包括：

7.根据权利要求4所述的方法，其特征在于，将提取得到的第一声纹特征同声纹库中的第二声纹特征进行比对之前，还包括：

8.一种基于多音区的会议记录装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述分离模块还包括：

10.根据权利要求8所述的装置，其特征在于，所述确定模块还包括：

11.根据权利要求8所述的装

12.根据权利要求11所述的装置，其特征在于，所述确定模块还用于：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。

14.一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。

...

【技术特征摘要】