本申请实施例提供了一种会议记录生成方法、装置、设备及存储介质,涉及人工智能技术领域及语音处理技术领域,方法包括:获取目标会议的会议音频;获取目标会议的至少一个与会对象中每个与会对象的语音特征,根据每个与会对象的语音特征对会议音频中每个与会对象的音频进行增强处理,得到每个与会对象的增强后的音频;对增强后的音频进行语音识别,得到增强后的音频对应的目标文本,并根据目标文本生成目标会议对应的会议记录。采用本申请,可以自动化智能化的生成会议记录。本申请涉及区块链技术,会议音频可从区块链获取。会议音频可从区块链获取。会议音频可从区块链获取。
【技术实现步骤摘要】
一种会议记录生成方法、装置、设备及存储介质
[0001]本申请涉及语音处理
,尤其涉及一种会议记录生成方法、装置、设备及存储介质。
技术介绍
[0002]在现代各种办公会议中,完整的会议记录是十分必要的,会后回顾记录往往是以录制的音频形式保存的,但是音频文件占用存储容量较大,而且查看起来十分不方便,使用率不高。如果将音频转为文字的话,可以大大减少存储空间,方便传送。因此,如何自动化智能化生成会议记录成为研究的热点。
技术实现思路
[0003]本申请实施例提供了一种会议记录生成方法、装置、设备及存储介质,可以自动化智能化生成会议记录。
[0004]一方面,本申请实施例提供了一种会议记录生成方法,包括:
[0005]获取目标会议的会议音频,所述目标会议存在多个与会对象;
[0006]获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征;
[0007]根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频;
[0008]对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
[0009]第二方面,本申请实施例提供了一种会议记录生成装置,包括:
[0010]获取模块,用于获取目标会议的会议音频,所述目标会议存在多个与会对象;
[0011]所述获取模块,还用于获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征;
[0012]处理模块,用于根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频,并对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
[0013]再一方面,本申请实施例提供了一种计算机设备,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现所述的会议记录生成方法。
[0014]再一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行所述的会议记录生成方法。
[0015]综上所述,计算机设备获取目标会议的会议音频;计算机设备还可以获取目标会议中至少一个与会对象中每个与会对象的语音特征。并根据每个与会对象的语音特征对会
议音频中每个与会对象的音频进行增强处理,得到每个与会对象的增强后的音频;计算机设备对增强后的音频进行语音识别,得到增强后的音频对应的目标文本,并根据目标文本生成目标会议对应的会议记录,实现了会议记录的自动化智能化生成过程。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本申请实施例提供的一种会议记录生成方法的流程示意图;
[0018]图2A是本申请提供的一种梅尔滤波器对数能量提取过程的示意图;
[0019]图2B是本申请实施例提供的一种生成增强后的音频以及训练语音过滤器的过程的示意图;
[0020]图2C是本申请实施例提供的一种生成会议记录的过程的示意图;
[0021]图3是本申请实施例提供的一种会议记录生成装置的结构示意图;
[0022]图4是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0023]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。需要说明的是,本申请所涉及各种音频,如会议音频、对象的音频的录制、处理和使用,均经过相关人员充分授权或者经过各方充分授权,本申请实施例涉及的各种音频的录制、处理和使用遵守相关国家和地区的相关法律法规和标准。
[0024]请参阅图1,为本申请实施例提供的一种会议记录生成方法的流程示意图。该方法可以应用于计算机设备。计算机设备可以为智能终端或服务器。智能终端可以为台式电脑等具备信息处理能力的智能终端。服务器可以是独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。具体地,该方法可以包括以下步骤:
[0025]S101、获取目标会议的会议音频,所述目标会议存在多个与会对象。
[0026]其中,目标会议指待生成对应的会议记录的会议。与会对象指参加会议的人或虚拟角色(指虚拟出来的形象,如虚拟出来的人物形象),发言对象指在目标会议上发言的与会对象,如发言的人或虚拟角色。
[0027]其中,所述会议音频混合了所述多个与会对象中的至少一个发言对象中每个发言对象的音频。会议音频可以通过录音设备采集。录音设备为具有录音功能的电子设备,包括但不限于录音器、电话机、手机、电脑等。在实际的应用场景中,若目标会议为线下会议,则录音设备可以是设置在目标会议的举办地点的一个录音设备,若目标会议为线上会议,则录音设备可以是任一与会对象或指定的一个与会对象使用的录音设备。
[0028]其中,所述的会议音频可以以一个音频文件的形式存在。会议音频混合了至少一
个发言对象中每个发言对象的音频。在播放会议音频时,可以听到至少一个发言对象中每个发言对象的语音。在实际的应用场景中,假设目标会议上有多人发言,此时通过录音设备采集的会议音频就包括多人语音。如果播放这个会议音频,就能够听到多个发言人中每个发言人的语音。正常情况下,如果能够正常采集到目标会议上所有发言对象中每个发言对象的语音,则会议音频就会混合有所有发言对象中每个发言对象的音频。
[0029]在一个实施例中,计算机设备可以在检测到目标会议的会议音频时,执行步骤S101。例如,计算机设备可以在检测到指定存储区域存储了会议音频时,执行步骤S101。或者,计算机设备可以在接收到针对目标会议的会议记录生成指令时,执行步骤S101。其中,会议记录生成指令可以由任一与会人员或指定的与会人员或除与会人员之外的其它人员提交。
[0030]在一个实施例中,录音设备采集完成目标会议的会议音频后,可以将会议音频发送至计算机设备或将会议音频存储于指定存储区域(录音设备的内部存储或外部存储、指定服务器或指定数据库),后续计算机设备可以获取指定存储区域存储的会议音频。
[0031]S102、获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种会议记录生成方法,其特征在于,包括:获取目标会议的会议音频,所述目标会议存在多个与会对象;获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征;根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频;对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取多个对象中每个对象的语音,所述多个对象包括所述至少一个与会对象;根据所述每个对象的语音提取所述每个对象对应的多组梅尔滤波器对数能量;根据所述每个对象对应的多组梅尔滤波器对数能量确定所述每个对象的语音特征信息;对所述每个对象的语音特征信息进行编码处理,得到所述每个对象的语音特征。3.根据权利要求2所述的方法,其特征在于,所述根据所述每个对象对应的多组梅尔滤波器对数能量确定所述每个对象的语音特征信息,包括:分别对所述每个对象对应的多组梅尔滤波器对数能量进行L2正则化处理,得到所述每个对象对应的多组正则化处理结果;分别对所述每个对象对应的多组正则化处理结果进行均值计算,得到所述每个对象对应的多个正则化处理结果均值;将所述每个对象对应的多个正则处理结果均值确定为所述每个对象的语音特征信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频,包括:获取所述会议音频的声音特征;对所述会议音频的声音特征进行短时傅里叶变换,得到第一幅度频谱;调用语音过滤器以根据所述至少一个与会对象中的与会对象O
i
的语音特征以及所述第一幅度频谱进行处理,得到软掩码P
i
,i为小于或等于M的正整数,M为所述至少一个与会对象的数量;利用所述软掩码P
i
对所述第一幅度频谱进行掩码处理,得到掩码后的幅度频谱Q
i
;对所述掩码后的幅度频谱Q
i
进行短时逆傅里叶变换,得到所述与会对象O
i
的增强后的音频。5.根据权利要求4所述的方法,其特征在于,所述获取所述会议音频的声音特征,包括:根据所述会议音频提取所述会议音频对应的多组梅尔滤波器对数能量;根据所述会议音频对应的多组梅尔滤波器对数能量确定所述会议音频的声音特征信息;对所述会议音频的声音特征信息进行编码处理,得到所述会议音频的声音特征。6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:获取样本会议音频,所述样本会议音频对应的会议存在多个样本与会对象;获取所述多个样本与会对象中...
【专利技术属性】
技术研发人员:胡立云,
申请(专利权)人:未鲲上海科技服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。