一种机器辅助的会议记录系统及方法技术方案

技术编号:29297867 阅读:15 留言:0更新日期:2021-07-17 01:05
本发明专利技术涉及一种机器辅助的会议记录系统,包括:麦克风收音阵列:用以实时拾取会议的音频数据;音频预处理模块:对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;声纹识别模块:用以判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;语音识别模块:用以将音频数据转换为文字信息;综合处理模块:用以组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;可实时交互处理的终端界面:用以实时进行操作处理,显示会议记录信息,依据机器生成的内容,实时进行纠错改正。与现有技术相比,本发明专利技术实时检错、自动生成,避免二次审查造成时间浪费。浪费。浪费。

A machine aided conference recording system and method

【技术实现步骤摘要】
attention、feed

forward network和ResNet connection,所述的feed

forward network由多层全连接串联而成,其激活函数为ReLU,所述的ResNet connection用于深度提取特征信息;
[0017]预测网络:除multi

head attention使用特定的掩码外,在结构上与编码器相同;
[0018]联合网络:接收编码器网络和预测网络输出的线性组合,由多层全连接层组成,其中,最后一层为softmax层,输出概率分布,根据概率分布生成相应的文字。
[0019]所述的语音识别模块中的网采用的Loss函数为标签序列所有对齐的概率和,则有:
[0020][0021]其中,loss为损失,p(y
i
|x
i
)为第i个样本的标签序列对应的所有可能对齐的概率和,α(T
i
,U
i
)为采用前向算法计算得到的对齐路径的概率和,T
i
表示时间,U
i
表示状态。
[0022]所述的终端界面包括:
[0023]说话人管理组件:用以实时标注说话人的身份标签,替换临时生成的说话人身份标签;
[0024]文字操作组件:用以实时修改根据语音自动生成的文字;
[0025]导出模块:依据选定的保存格式,将会议记录进行导出存档。
[0026]一种机器辅助的会议记录方法,包括以下步骤:
[0027]1)通过麦克风收音阵列实时拾取会议的音频数据;
[0028]2)通过音频预处理模块对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
[0029]3)通过声纹识别模块判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
[0030]4)通过语音识别模块将音频数据转换为文字信息;
[0031]5)通过综合处理模块组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;
[0032]6)在终端界面实时显示会议记录信息,依据机器生成的内容,进行纠错改正。
[0033]所述的步骤2)具体包括以下步骤:
[0034]21)将音频分成若干帧,利用帧级特征提取器提取不同的帧级特征;
[0035]22)将帧级特征输入注意力统计池化层,输出帧级特征的权重平均值以及权重标准差;
[0036]23)将帧级特征权重平均值作为话语级特征,输入话语级别特征提取器中,生成表示说话人身份的数值向量。
[0037]所述的步骤5)具体包括以下步骤:
[0038]51)控制音频输入预处理模块,划分句子逻辑;
[0039]52)接收声纹识别模块以及语音处理模块的输出,判断句子所属说话人标签;
[0040]53)生成文字信息,输出给用户逻辑界面;
[0041]54)截取语音片段,使得每句话均有相对应的语音片段;
[0042]55)接收修改反馈信息,修改文字逻辑输出;
[0043]56)依据选定要求,生成存档信息。
[0044]所述的步骤54)具体为:
[0045]依据声纹识别模块输出的说话人身份标识信息,在身份发生转变的时刻,记录音频起始时间和结束时间,在进行查询时,依据已记录的信息,输出起始时间到结束时间的音频部分。
[0046]与现有技术相比,本专利技术具有以下优点:
[0047]一、该机器辅助会议记录方法可以通过拾取的音频,通过声纹识别和语音识别自动化进行说话人识别与文本生成,并通过交互界面实时进行检错修改,避免了二次审查所造成的时间资源的浪费。
[0048]二、声纹识别模块无需提前录入所有说话人信息即可使用,在生成数值向量之后,将该数值向量与已保存的身份信息对比,若身份信息不在库内,则分配给一个临时身份信息,该身份信息对应了一个数值向量,并且该临时身份信息可替换为交互终端界面接受到的身份信息输入,转变成为固定身份标识。
附图说明
[0049]图1为本专利技术的流程图。
[0050]图2为本专利技术的系统结构图。
具体实施方式
[0051]为了使本领域的人员更容易的理解本专利技术中的技术方案,下面将结合本专利技术的实施例以及附图说明,对本专利技术实施例中的技术方案进行详细,完整的描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。
[0052]实施例
[0053]如图1和2所示,本专利技术提供一种机器辅助的会议记录系统及方法,该系统包括:
[0054]一个麦克风收音阵列装置:用以实时拾取音频数据;
[0055]音频预处理模块:处理录入的音频数据,该模块将音频数据逐片段的进行分割,然后进行数据预处理,最后将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
[0056]声纹识别模块:用以判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
[0057]语音识别模块:实现将音频数据转换为文字信息;
[0058]综合处理模块:用以组合声纹识别模块与语音识别模块的输出内容,并呈现给交互界面;
[0059]一个可实时交互处理终端界面:用以实时进行操作处理,该界面显示会议记录信息,可依据机器生成的内容,实时进行纠错改正,方便,在审查之后可以导出文件。
[0060]数据预处理的方式主要为预加重、分帧和加窗,其中,预加重是使用数据滤波器人为的对采集语音信号的高频部分进行提升;分帧是依据语音信号的短时不变性,将一段长语音进行分成若干段,每段称为帧,帧的长度一般是10ms,便于分析每一帧语音的特征参数;加窗是为了对抽样附近的语音波形加以强调,对其余部分进行减弱,以突出具有特征的
部分。这些操作的目的都是为了消除由于人类器官发声,或者设备采集所带来的声音的混叠、高频等问题,使语音处理后的信号更加均匀,平滑。
[0061]上述的声纹识别模块的数据处理过程包括:
[0062]21)将音频分成若干帧,利用帧级特征提取器提取不同的帧的特征;
[0063]22)帧级特征进入注意力统计池化层,输出帧级特征的权重平均值以及权重标准差;
[0064]23)将这些帧级特征权重平均值作为话语级特征,输入到话语级别特征提取器中,最终生成表示说话人身份的数值向量。
[0065]声纹识别模块不需要提前录入所有说话人信息才能够使用,在模型生成的数值向量之后,将该数值向量与已保存的身份信息对比,若身份信息不在库内,则将分配给一个临时身份信息,该身份信息对应了一个数值向量,并且该临时身份信息可替换为交互终端界面接受到的身份信息输入,转变成为固定身份标识。
[0066]对于帧级特征提取器和话语级特征处理器,本例中可以采用基于CNN、LSTM或者Transformer结构的深度神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器辅助的会议记录系统,其特征在于,该系统包括:麦克风收音阵列:用以实时拾取会议的音频数据;音频预处理模块:对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;声纹识别模块:用以判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;语音识别模块:用以将音频数据转换为文字信息;综合处理模块:用以组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;可实时交互处理的终端界面:用以实时进行操作处理,显示会议记录信息,依据机器生成的内容,实时进行纠错改正。2.根据权利要求1所述的一种机器辅助的会议记录系统,其特征在于,所述的声纹识别模块包括依次连接的帧级特征提取器、注意力统计池化层和话语级别特征提取器,所述的帧级特征提取器用以提取分为多帧后的音频数据的帧级特征,注意力统计池化层用以根据帧级特征输出帧级特征的权重平均值和权重标准差,所述的话语级别特征提取器将帧级特征权重平均值作为话语级特征并输入,生成表示说话人身份的数值向量。3.根据权利要求2所述的一种机器辅助的会议记录系统,其特征在于,所述的帧级特征提取器和话语级特征处理器采用基于CNN、LSTM或Transformer结构的深度神经网络模型。4.根据权利要求1所述的一种机器辅助的会议记录系统,其特征在于,所述的语音识别模块包括:编码器网络:由多个块堆叠形成,每个块依次包含layer norm、multi

head attention、feed

forward network和ResNet connection,所述的feed

forward network由多层全连接串联而成,其激活函数为ReLU,所述的ResNet connection用于深度提取特征信息;预测网络:除multi

head attention使用特定的掩码外,在结构上与编码器相同;联合网络:接收编码器网络和预测网络输出的线性组合,由多层全连接层组成,其中,最后一层为softmax层,输出概率分布,根据概率分布生成相应的文字。5.根据权利要求4所述的一种机器辅助的会议记录系统,其特征在于,所述的语音识别模块中的网采用的Loss函数为标签序列所有对齐的概率和,则有:其中,loss为损失,p(y
i
...

【专利技术属性】
技术研发人员:田金钊程帆符鸿飞
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1