会议纪要生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：27583274 阅读：26 留言：0更新日期：2021-03-10 09:57

本发明专利技术实施例涉及一种会议纪要生成方法、装置、计算机设备及存储介质，所述方法包括：调用语音采集设备采集会议过程的全程语音，调用图像采集设备采集会议过程的全程图像；从全程语音中提取单通道语音，从单通道语音中分别提取多个语音分段数据流；针对每个语音分段数据流，从全程图像中截取与该语音分段数据流对应的图像分段数据流；将每个语音分段数据流以及对应的图像分段数据流输入语音发出者检测模型，提取多个对应的语音发出者身份信息以及位置信息；将每个语音分段数据流，以及对应的语音发出者身份信息、位置信息输入语音识别模型，提取多个对应的语音转录文字；依次记录每个语音转录文字以及对应的语音发出者身份信息，生成会议纪要。生成会议纪要。生成会议纪要。

全部详细技术资料下载

【技术实现步骤摘要】
会议纪要生成方法、装置、计算机设备及存储介质

[0001]本专利技术实施例涉及计算机信息自动处理
，尤其涉及一种会议纪要生成方法、装置、计算机设备及存储介质。

技术介绍

[0002]在各类工作和生活环境中，会议是人们沟通信息、完成讨论、制定计划的一个非常重要的场景。在多人的会议当中，通常进行多轮发言和对话，通过一系列上下文相关的语音和内容完成了交流和沟通。其中，语音作为人们进行信息交互最自然、最有效的手段，广泛存在于各种会议场景中。
[0003]在日常生活中，人们通过语言之间的沟通，其实是基于多种感官信号(例如听觉、视觉)共同的刺激而完成的。例如，在日常的一段对话中，除了听觉通路本身的纯语音信号之外，视觉也会带来比如对语音发出者的身份的确认、对语音识别的提升(例如通过唇语动作的辅助)等作用。
[0004]具体到会议类场景中，由于语音发出者的身份不止一个，对会议场景中存在的语音进行简单的转录，而忽略了对语音发出者身份的确认，导致每一段语音缺乏语音发出者的身份信息，后续需要使用人工的方式去确认每一段语音的语音发出者的身份信息，效率比较低。

技术实现思路

[0005]鉴于此，为解决上述技术问题或部分技术问题，本专利技术实施例提供了一种会议纪要生成方法、装置、计算机设备及存储介质。
[0006]第一方面，本专利技术实施例提供了一种会议纪要生成方法，所述方法包括：
[0007]调用语音采集设备采集会议过程中的多个语音发出者对应的全程语音，调用图像采集设备采集会议过程中的多个...

【技术保护点】

【技术特征摘要】
1.一种会议纪要生成方法，其特征在于，所述方法包括：调用语音采集设备采集会议过程中的多个语音发出者对应的全程语音，调用图像采集设备采集会议过程中的多个语音发出者对应的全程图像；从所述全程语音中提取单通道语音，从所述单通道语音中分别提取多个语音分段数据流，其中，每个语音分段数据流均属于一个语音发出者；针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，其中，每个语音分段数据流与对应的图像分段数据流均属于同一语音发出者；将每个语音分段数据流以及对应的图像分段数据流输入语音发出者检测模型，提取多个对应的语音发出者身份信息以及位置信息；将每个语音分段数据流，以及对应的语音发出者身份信息、位置信息输入语音识别模型，提取多个对应的语音转录文字；依次记录每个语音转录文字以及对应的语音发出者身份信息，生成会议纪要。2.根据权利要求1所述的方法，其特征在于，所述从所述全程语音中提取单通道语音，包括：将所述全程语音经过A/D转换，且按照预设的提取率进行提取，以得到单通道语音。3.根据权利要求1所述的方法，其特征在于，所述从所述单通道语音中分别提取多个语音分段数据流，包括：对所述单通道语音进行断句切分，以提取多个语音分段数据流。4.根据权利要求1所述的方法，其特征在于，所述针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流对应的图像分段数据流，包括：针对每个语音分段数据流，从所述全程图像中截取与该语音分段数据流位于同一时间段的对应图像分段数据流。5.根据权利要求1所述的方法，其特征在于，所述将每个语音分段数据流，以及对应的语音发出者身份信息、位置信息输入语音识别模型，提取多个对应的语音转录文字，包括：将每个语音分段数据流，以及对应的语音发出者身份信息、位置信息输入语音增强去噪模型，得到多个去噪后的语音；将每个语音分段...

【专利技术属性】
技术研发人员：许家铭，石晶，徐波，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人