注册方法和设备、说话者识别方法和设备技术

技术编号:25640038 阅读:28 留言:0更新日期:2020-09-15 21:31
公开了注册方法和设备、说话者识别方法和设备。所述注册方法包括:接收说话者的语音信号;对接收的语音信号与噪声信号进行合成以生成合成信号;基于合成信号来生成特征向量;和基于生成的特征向量来构造与说话者对应的注册数据库(DB)。

【技术实现步骤摘要】
注册方法和设备、说话者识别方法和设备本申请要求于2019年3月8日在韩国知识产权局提交的第10-2019-0026714号韩国专利申请和于2019年5月2日在韩国知识产权局提交的第10-2019-0051557号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
下面的描述涉及具有说话者识别的方法和设备。
技术介绍
说话者识别用于基于说话者的声音或语音来验证或辨识说话者,并且可应用于各种情况和应用领域(例如,集会、会议以及对话或会话中的辨识)。说话者识别系统可应用于车辆、建筑物以及银行账户,以用于出于安全目的的访问控制。
技术实现思路
提供本
技术实现思路
以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意在确定要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。在一个总体方面,一种具有注册的方法包括:接收说话者的语音信号;对接收的语音信号与噪声信号进行合成以生成合成信号;基于合成信号来生成特征向量;和基于生成的特征向量来构造与说话者对应的注册数据库(DB)。所述方法还可包括:基于接收的语音信号来生成第二特征向量,其中,构造注册DB的步骤包括:基于特征向量和第二特征向量中的任何一个或两者来构造注册DB。构造注册DB的步骤可包括:将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组;和提取与所述多个组中的至少一组对应的至少一个代表性特征向量。第二特征向量可基于没有合成的接收的语音信号。生成特征向量的步骤可包括:对合成信号执行域变换;和从域变换的结果提取特征向量。合成信号可包括时域声音信息,并且域变换的结果可包括频域图像信息。生成特征向量的步骤可包括:使用卷积神经网络(CNN)从频域图像信息提取特征向量。合成的步骤可包括:将噪声信号添加到接收的语音信号。噪声信号可包括加性噪声信号。加性噪声信号可基于噪声的类型、噪声的时序以及指示噪声与语音信号的能量比的信噪比(SNR)中的任何一个或任何两个或更多个的任何组合被确定。合成的步骤可包括:对接收的语音信号和噪声信号执行卷积运算。噪声信号可包括信道噪声信号。信道噪声信号可基于噪声的类型和指示噪声与语音信号的能量比的SNR中的至少一个被确定。生成特征向量的步骤可包括:将合成信号分割成多个部分;和提取与所述多个部分中的至少一个部分对应的至少一个部分特征向量。所述方法还可包括:提取包括在语音信号和合成信号中的任何一个或两者中的声音信息的起始点和结束点,其中,起始点和结束点被应用于合成的步骤和生成的步骤中的任何一个或两者。接收语音信号的步骤可包括:通过多个通道接收说话者的语音信号。可针对所述多个通道中的每个通道独立地执行合成的步骤和生成的步骤。构造注册DB的步骤可包括:基于通过所述多个通道生成的特征向量来构造注册DB。所述方法还可包括:在接收语音信号之后,基于接收的语音信号之间的差来估计噪声;和从接收的语音信号中的每个语音信号减去所述噪声。接收语音信号的步骤可包括:通过多个通道接收说话者的语音信号。所述方法还可包括:通过预处理接收的语音信号来确定用于合成的语音信号。确定语音信号的步骤可包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号中,从接收的语音信号中选择一个语音信号。确定语音信号的步骤可包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号的每个部分中,针对接收的语音信号的多个部分之中的每个部分从接收的语音信号中选择一个语音信号。所述方法还可包括:通过将输入语音信号与生成的特征向量进行比较来识别说话者。在另一总体方面,一种非暂时性计算机可读存储介质存储指令,所述指令在被处理器执行时,使得所述处理器执行上述方法。在另一总体方面,一种说话者识别方法包括:接收说话者的语音信号;基于接收的语音信号来生成至少一个输入特征向量;将所述至少一个输入特征向量与存储在注册数据库(DB)中的注册用户的至少一个注册特征向量进行比较;和基于比较的结果来识别说话者,其中,基于用于注册注册用户的语音信号与噪声信号的合成信号来生成所述至少一个注册特征向量。注册用户可包括多个注册用户。识别说话者的步骤可包括:从所述多个注册用户之中辨识说话者。生成所述至少一个输入特征向量的步骤可包括:对接收的语音信号执行域变换;和从域变换的结果提取输入特征向量。执行域变换的步骤可包括:对接收的语音信号执行快速傅里叶变换(FFT);和基于FFT的结果对FFT的结果执行填充。生成所述至少一个输入特征向量的步骤可包括:对接收的语音信号执行滑动窗口操作,使得输入特征向量的窗口大小等于注册特征向量的窗口大小。所述至少一个输入特征向量的数量可基于应用所需的安全级别或响应时间被确定。噪声信号可包括加性噪声信号和信道噪声信号中的任何一个或两者。接收语音信号的步骤可包括:通过多个通道接收说话者的语音信号。可针对所述多个通道中的每个通道独立地执行生成的步骤和比较的步骤。注册特征向量可包括通过所述多个通道生成的注册特征向量。所述说话者识别方法还可包括:在接收语音信号之后,基于接收的语音信号之间的差来估计噪声;和从接收的语音信号中的每个语音信号减去所述噪声。接收语音信号的步骤可包括:通过多个通道接收说话者的语音信号。所述说话者识别方法还可包括:通过预处理接收的语音信号来确定用于合成的语音信号。确定语音信号的步骤可包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号中,从接收的语音信号中选择一个语音信号。确定语音信号的步骤可包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号的每个部分中,针对接收的语音信号的多个部分之中的每个部分从接收的语音信号中选择一个语音信号。所述方法还可包括:在接收语音信号之前,基于合成信号生成所述至少一个注册特征向量,并且将所述至少一个注册特征向量存储在注册DB中。在另一总体方面,一种非暂时性计算机可读存储介质存储指令,所述指令在被处理器执行时,使得所述处理器执行上述说话者识别方法。在另一总体方面,一种具有注册的设备包括:声学传感器,被配置为接收说话者的语音信号;和处理器,被配置为对接收的语音信号与噪声信号进行合成以生成合成信号,基于合成信号来生成特征向量,并且基于生成的特征向量来构造与说话者对应的注册数据库(DB)。处理器还可被配置为:基于接收的语音信号来生成第二特征向量,和基于特征向量和第二特征向量中的任何一个或两者来构造注册DB。处理器还可被配置为:将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组,并且提取与所述多个组中的至少一组对应的至少一个代表性特征向量。第二特征向量可基于没有合成的接收的语音信号。处理器还可被配置为:对合成信号执行域变换,并从域变换的结果提取特征向量。处理器还本文档来自技高网...

【技术保护点】
1.一种注册方法,包括:/n接收说话者的语音信号;/n对接收的语音信号与噪声信号进行合成,以生成合成信号;/n基于合成信号来生成特征向量;和/n基于生成的特征向量来构造与说话者对应的注册数据库。/n

【技术特征摘要】
20190308 KR 10-2019-0026714;20190502 KR 10-2019-001.一种注册方法,包括:
接收说话者的语音信号;
对接收的语音信号与噪声信号进行合成,以生成合成信号;
基于合成信号来生成特征向量;和
基于生成的特征向量来构造与说话者对应的注册数据库。


2.根据权利要求1所述的注册方法,还包括:
基于接收的语音信号来生成第二特征向量,
其中,构造注册数据库的步骤包括:基于特征向量和第二特征向量中的任何一个或两者来构造注册数据库。


3.根据权利要求2所述的注册方法,其中,构造注册数据库的步骤包括:
将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组;和
提取与所述多个组中的至少一组对应的至少一个代表性特征向量。


4.根据权利要求2所述的注册方法,其中,第二特征向量基于没有合成的接收的语音信号。


5.根据权利要求1所述的注册方法,其中,生成特征向量的步骤包括:
对合成信号执行域变换;和
从域变换的结果提取特征向量。


6.根据权利要求5所述的注册方法,其中,合成信号包括时域声音信息,并且域变换的结果包括频域图像信息,
其中,生成特征向量的步骤包括:使用卷积神经网络从频域图像信息提取特征向量。


7.根据权利要求1所述的注册方法,其中,合成的步骤包括将噪声信号添加到接收的语音信号,噪声信号包括加性噪声信号。


8.根据权利要求7所述的注册方法,其中,加性噪声信号基于噪声的类型、噪声的时序以及指示噪声与语音信号的能量比的信噪比中的任何一个或任何两个或更多个的任何组合被确定。


9.根据权利要求1所述的注册方法,其中,合成的步骤包括对接收的语音信号和噪声信号执行卷积运算,噪声信号包括信道噪声信号。


10.根据权利要求9所述的注册方法,其中,信道噪声信号基于噪声的类型和指示噪声与语音信号的能量比的信噪比中的至少一个被确定。


11.根据权利要求1所述的注册方法,其中,生成特征向量的步骤包括:
将合成信号分割成多个部分;和
提取与所述多个部分中的至少一个部分对应的至少一个部分特征向量。


12.根据权利要求1所述的注册方法,还包括:
提取包括在语音信号和合成信号中的任何一个或两者中的声音信息的起始点和结束点,
其中,起始点和结束点被应用于合成的步骤和生成特征向量的步骤中的任何一个或两者。


13.根据权利要求1所述的注册方法,其中,接收语音信号的步骤包括:通过多个通道接收说话者的语音信号,针对所述多个通道之中的每个通道独立地执行合成的步骤和生成特征向量的步骤,构造注册数据库的步骤包括:基于通过所述多个通道生成的特征向量来构造注册数据库。


14.根据权利要求13所述的注册方法,还包括:
在接收语音信号之后,基于接收的语音信号之间的差来估计噪声;和
从接收的语音信号中的每个语音信号减去所述噪声。


15.根据权利要求1所述的注册方法,其中,接收语音信号的步骤包括:通过多个通道接收说话者的语音信号,并且
其中,所述注册方法还包括:通过预处理接收的语音信号来确定用于合成的语音信号。


16.根据权利要求15所述的注册方法,其中,确定语音信号的步骤包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号中,从接收的语音信号中选择一个语音信号。


17.根据权利要求15所述的注册方法,其中,确定语音信号的步骤包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号的每个部分中,针对接收的语音信号的多个部分之中的每个部分从接收的语音信号中选择一个语音信号。


18.根据权利要求1所述的注册方法,还包括:通过将输入语音信号与生成的特征向量进行比较来识别说话者。


19.一种存储指令的非暂时性计算机可读存储介质,所述指令在被处理器执行时,使得所述处理器执行权利要求1所述的注册方法。


20.一种说话者识别方法,包括:
接收说话者的语音信号;
基于接收的语音信号来生成至少一个输入特征向量;
将所述至少一个输入特征向量与存储在注册数据库中的注册用户的至少一个注册特征向量进行比较;和
基于比较的结果来识别说话者,
其中,基于用于注册注册用户的语音信号与噪声信号的合成信号来生成所述至少一个注册特征向量。


21.根据权利要求20所述的说话者识别方法,其中,注册用户包括多个注册用户,识别说话者的步骤包括从所述多个注册用户之中辨识说话者。


22.根据权利要求20所述的说话者识别方法,其中,生成所述至少一个输入特征向量的步骤包括:
对接收的语音信号执行域变换;和
从域变换的结果提取输入特征向量。


23.根据权利要求22所述的说话者识别方法,其中,执行域变换的步骤包括:
对接收的语音信号执行快速傅里叶变换;和
基于快速傅里叶变换的结果对快速...

【专利技术属性】
技术研发人员:朴成彦金圭洪
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1