【技术实现步骤摘要】
注册方法和设备、说话者识别方法和设备本申请要求于2019年3月8日在韩国知识产权局提交的第10-2019-0026714号韩国专利申请和于2019年5月2日在韩国知识产权局提交的第10-2019-0051557号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
下面的描述涉及具有说话者识别的方法和设备。
技术介绍
说话者识别用于基于说话者的声音或语音来验证或辨识说话者,并且可应用于各种情况和应用领域(例如,集会、会议以及对话或会话中的辨识)。说话者识别系统可应用于车辆、建筑物以及银行账户,以用于出于安全目的的访问控制。
技术实现思路
提供本
技术实现思路
以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意在确定要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。在一个总体方面,一种具有注册的方法包括:接收说话者的语音信号;对接收的语音信号与噪声信号进行合成以生成合成信号;基于合成信号来生成特征向量;和基于生成的特征向量来构造与说话者对应的注册数据库(DB)。所述方法还可包括:基于接收的语音信号来生成第二特征向量,其中,构造注册DB的步骤包括:基于特征向量和第二特征向量中的任何一个或两者来构造注册DB。构造注册DB的步骤可包括:将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组;和提取与所述多个组中的至少一组对应的至少一个代表性特征向量。第二特征向量可基于没有合 ...
【技术保护点】
1.一种注册方法,包括:/n接收说话者的语音信号;/n对接收的语音信号与噪声信号进行合成,以生成合成信号;/n基于合成信号来生成特征向量;和/n基于生成的特征向量来构造与说话者对应的注册数据库。/n
【技术特征摘要】
20190308 KR 10-2019-0026714;20190502 KR 10-2019-001.一种注册方法,包括:
接收说话者的语音信号;
对接收的语音信号与噪声信号进行合成,以生成合成信号;
基于合成信号来生成特征向量;和
基于生成的特征向量来构造与说话者对应的注册数据库。
2.根据权利要求1所述的注册方法,还包括:
基于接收的语音信号来生成第二特征向量,
其中,构造注册数据库的步骤包括:基于特征向量和第二特征向量中的任何一个或两者来构造注册数据库。
3.根据权利要求2所述的注册方法,其中,构造注册数据库的步骤包括:
将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组;和
提取与所述多个组中的至少一组对应的至少一个代表性特征向量。
4.根据权利要求2所述的注册方法,其中,第二特征向量基于没有合成的接收的语音信号。
5.根据权利要求1所述的注册方法,其中,生成特征向量的步骤包括:
对合成信号执行域变换;和
从域变换的结果提取特征向量。
6.根据权利要求5所述的注册方法,其中,合成信号包括时域声音信息,并且域变换的结果包括频域图像信息,
其中,生成特征向量的步骤包括:使用卷积神经网络从频域图像信息提取特征向量。
7.根据权利要求1所述的注册方法,其中,合成的步骤包括将噪声信号添加到接收的语音信号,噪声信号包括加性噪声信号。
8.根据权利要求7所述的注册方法,其中,加性噪声信号基于噪声的类型、噪声的时序以及指示噪声与语音信号的能量比的信噪比中的任何一个或任何两个或更多个的任何组合被确定。
9.根据权利要求1所述的注册方法,其中,合成的步骤包括对接收的语音信号和噪声信号执行卷积运算,噪声信号包括信道噪声信号。
10.根据权利要求9所述的注册方法,其中,信道噪声信号基于噪声的类型和指示噪声与语音信号的能量比的信噪比中的至少一个被确定。
11.根据权利要求1所述的注册方法,其中,生成特征向量的步骤包括:
将合成信号分割成多个部分;和
提取与所述多个部分中的至少一个部分对应的至少一个部分特征向量。
12.根据权利要求1所述的注册方法,还包括:
提取包括在语音信号和合成信号中的任何一个或两者中的声音信息的起始点和结束点,
其中,起始点和结束点被应用于合成的步骤和生成特征向量的步骤中的任何一个或两者。
13.根据权利要求1所述的注册方法,其中,接收语音信号的步骤包括:通过多个通道接收说话者的语音信号,针对所述多个通道之中的每个通道独立地执行合成的步骤和生成特征向量的步骤,构造注册数据库的步骤包括:基于通过所述多个通道生成的特征向量来构造注册数据库。
14.根据权利要求13所述的注册方法,还包括:
在接收语音信号之后,基于接收的语音信号之间的差来估计噪声;和
从接收的语音信号中的每个语音信号减去所述噪声。
15.根据权利要求1所述的注册方法,其中,接收语音信号的步骤包括:通过多个通道接收说话者的语音信号,并且
其中,所述注册方法还包括:通过预处理接收的语音信号来确定用于合成的语音信号。
16.根据权利要求15所述的注册方法,其中,确定语音信号的步骤包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号中,从接收的语音信号中选择一个语音信号。
17.根据权利要求15所述的注册方法,其中,确定语音信号的步骤包括:基于由于硬件规格引起的识别错误是否包括在接收的语音信号的每个部分中,针对接收的语音信号的多个部分之中的每个部分从接收的语音信号中选择一个语音信号。
18.根据权利要求1所述的注册方法,还包括:通过将输入语音信号与生成的特征向量进行比较来识别说话者。
19.一种存储指令的非暂时性计算机可读存储介质,所述指令在被处理器执行时,使得所述处理器执行权利要求1所述的注册方法。
20.一种说话者识别方法,包括:
接收说话者的语音信号;
基于接收的语音信号来生成至少一个输入特征向量;
将所述至少一个输入特征向量与存储在注册数据库中的注册用户的至少一个注册特征向量进行比较;和
基于比较的结果来识别说话者,
其中,基于用于注册注册用户的语音信号与噪声信号的合成信号来生成所述至少一个注册特征向量。
21.根据权利要求20所述的说话者识别方法,其中,注册用户包括多个注册用户,识别说话者的步骤包括从所述多个注册用户之中辨识说话者。
22.根据权利要求20所述的说话者识别方法,其中,生成所述至少一个输入特征向量的步骤包括:
对接收的语音信号执行域变换;和
从域变换的结果提取输入特征向量。
23.根据权利要求22所述的说话者识别方法,其中,执行域变换的步骤包括:
对接收的语音信号执行快速傅里叶变换;和
基于快速傅里叶变换的结果对快速...
【专利技术属性】
技术研发人员:朴成彦,金圭洪,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:韩国;KR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。