一种基于语义通信的远程说话人确认方法及系统技术方案

技术编号：43031488 阅读：12 留言：0更新日期：2024-10-18 17:32

本发明专利技术公开了一种基于语义通信的远程说话人确认方法及系统，具体涉及语音信号传输处理技术领域，其包括本地发送端编码和远程接收端解码两部分，本地发送端编码包括对原始语音信号的频谱进行语义特征提取，得到说话人语义特征，然后进行说话人语义特征维度调整，最后通过信道传输至远程接收端；远程接收端解码包括：接收本地发送端传输的维度调整后的说话人语义特征信号；对维度调整后的说话人语义特征信号进行维度恢复及归一化处理，得到说话人嵌入特征；将说话人嵌入特征与目标说话人嵌入特征进行比较，判断说话人是否为目标说话人。本发明专利技术可以在节约通信资源的情况下，提高低信噪比时说话人确认任务的可靠性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于语义通信的远程说话人确认方法及系统，属于语音信号处理传输。

技术介绍

1、近年来，随着人工智能、物联网和智能人机交互领域的发展，越来越多的设备被部署，所需传输的数据量几何倍增长，亟需高效且可靠的通信来应对日益紧张的通信资源。

2、在传统的说话人确认系统中，发送端需要将整段语音都发送至接收端，这过程中传输了大量与任务无关的冗余信息，浪费了稀缺紧张的通信资源。另一方面，语音信号在传输过程中极易受到信道影响，尤其是在低信噪比情况下，几乎无法完成说话人确认任务。同时，传统方式中，信号一旦被监听，传输的语音信道极易被监听者恢复从而导致用户的信息泄露，存在安全隐患。

3、语义通信是对原始信号进行特征提取、压缩和传输，利用语义层面信息进行通信的技术。在语义通信技术中，发送端利用神经网络提取与任务相关的特征并通过信道发送至接收端，接收端根据接收到的语义信息完成任务。由于神经网络庞大的参数量，被信道干扰之后的特征数值可以被神经网络在一定程度上进行纠正，从而使其与目标特征的距离依然小于与其他目标特征的距离，保证任务在低信噪比时依旧可以保持较高的准确率。同时，由于在语义通信中，只需要将与任务有关的语义信息通过信道传输，对比传统通信方案，可以大幅度减少传输数据量。另外，语义通信只传输与目标任务相关的特征，避免信息在传输过程中被直接窃取，可以很大程度地保护用户隐私。

技术实现思路

1、本专利技术的目的在于克服现有技术中的不足，提供一种基于语义通信的远程说话人确认

2、为达到上述目的，本专利技术是采用下述技术方案实现的：

3、第一方面，本专利技术提供一种基于语义通信的远程说话人确认方法，应用于本地发送端，具体包括：

4、获取原始语音信号；

5、将原始语音信号转化为梅尔频率倒谱系数，得到原始语音信号的频谱；

6、根据所述原始语音信号的频谱，进行语义特征提取，得到说话人语义特征；

7、根据所述说话人语义特征，进行说话人语义特征维度调整，得到维度调整后的说话人语义特征；

8、将维度调整后的说话人语义特征通过信道传输至远程接收端，使得远程接收端执行以下步骤：

9、接收本地发送端传输的维度调整后的说话人语义特征信号；

10、对维度调整后的说话人语义特征信号进行维度恢复及归一化处理，得到说话人嵌入特征；

11、将说话人嵌入特征与目标说话人嵌入特征进行比较，判断说话人是否为目标说话人。

12、进一步的，根据所述原始语音信号的频谱，进行语义特征提取，得到说话人语义特征通过语义编码器实现；

13、所述语义编码器包括依次连接的初始化层、多个膨胀系数不同的挤压激励-残差模块、全连接层以及注意力统计池化层模块；

14、所述初始化层用于扩展原始语音信号的频谱的通道数，其包括依次连接的一维卷积层和激活函数层；

15、各挤压激励-残差模块依次设置，分别用于提取不同尺度的说话人嵌入特征，增加感受野，其包括依次连接的一维卷积层、一维残差卷积层、一维卷积层和挤压激励模块；

16、所述注意力统计池化层模块用于动态调整说话人嵌入特征中不同通道的权重以利用全局属性。

17、进一步的，根据所述说话人语义特征，进行说话人语义特征维度调整，得到维度调整后的说话人语义特征通过信道编码器实现，所述信道编码器用于改变说话人语义特征的维度形状以使其适用于信道传输，其包括一个重构层。

18、进一步的，对维度调整后的说话人语义特征进行维度恢复及归一化处理，得到说话人嵌入特征通过信道解码器及语义解码器实现；

19、所述信道解码器用于恢复语义特征维度，其包括一个重构层；所述语义解码器用于对恢复维度后的说话人语义特征进行归一化处理，其包括一个批归一化层。

20、进一步的，将说话人嵌入特征与目标说话人嵌入特征进行比较，判断说话人是否为目标说话人，包括：

21、计算说话人嵌入特征与目标说话人嵌入特征之间的余弦距离，其表达式如下：

22、

23、其中，为目标说话人嵌入特征，为说话人嵌入特征，n为特征的维度大小。

24、将说话人嵌入特征与目标说话人嵌入特征之间的余弦距离与预设阈值进行比较，若说话人嵌入特征与目标说话人嵌入特征之间的余弦距离大于预设阈值，则判断说话人为目标说话人，若说话人嵌入特征与目标说话人嵌入特征之间的余弦距离小于预设阈值，则判断说话人不为目标说话人。

25、第二方面，本专利技术还提供一种基于语义通信的远程说话人确认方法，应用于远程接收端，具体包括：

26、接收本地发送端传输的维度调整后的说话人语义特征信号；

27、对维度调整后的说话人语义特征信号进行维度恢复及归一化处理，得到说话人嵌入特征；

28、将说话人嵌入特征与目标说话人嵌入特征进行比较，判断说话人是否为目标说话人；

29、其中，所述维度调整后的说话人语义特征信号由本地发送端执行以下步骤获得：

30、获取原始语音信号；

31、将原始语音信号转化为梅尔频率倒谱系数，得到原始语音信号的频谱；

32、根据所述原始语音信号的频谱，进行语义特征提取，得到说话人语义特征；

33、根据所述说话人语义特征，进行说话人语义特征维度调整，得到维度调整后的说话人语义特征。

34、第三方面，本专利技术提供一种基于语义通信的远程说话人确认系统，其包括本地发送端和远程接收端，二者之间设有信道；

35、所述本地发送端包括语音信号获取模块、频谱转换模块、语义编码器、信道编码器；

36、所述远程接收端包括信道解码器、语义解码器以及分析判别模块；

37、所述语音信号获取模块用于获取原始语音信号；

38、所述频谱转换模块用于将原始语音信号转化为梅尔频率倒谱系数，得到原始语音信号的频谱；

39、所述语义编码器用于根据所述原始语音信号的频谱，进行语义特征提取，得到说话人语义特征；

40、所述信道编码器用于根据所述说话人语义特征，进行说话人语义特征维度调整，得到维度调整后的说话人语义特征；

41、所述信道用于将维度调整后的说话人语义特征通过信道由本地发送端传输至远程接收端；

42、所述信道解码器、语义解码器分别用于对维度调整后的说话人语义特征信号进行维度恢复、归一化处理，得到说话人嵌入特征；

43、所述分析判别模块用于将说话人嵌入特征与目标说话人嵌入特征进行比较，判断说话人是否为目标说话人。

44、进一步的，所述信道包括高斯信道、莱斯信道或瑞利信道。

45、进一步的，对所述语义编码器、语义解码器进行预训练，所述预训练方法包括：

46、获取说话人本文档来自技高网...

【技术保护点】

1.一种基于语义通信的远程说话人确认方法，其特征在于，应用于本地发送端,具体包括：

2.根据权利要求1所述的基于语义通信的远程说话人确认方法，其特征在于，根据所述原始语音信号的频谱，进行语义特征提取，得到说话人语义特征通过语义编码器实现；

3.根据权利要求1所述的基于语义通信的远程说话人确认方法，其特征在于，根据所述说话人语义特征，进行说话人语义特征维度调整，得到维度调整后的说话人语义特征通过信道编码器实现，所述信道编码器用于改变说话人语义特征的维度形状以使其适用于信道传输，其包括一个重构层。

4.根据权利要求1所述的基于语义通信的远程说话人确认方法，其特征在于，对维度调整后的说话人语义特征进行维度恢复及归一化处理，得到说话人嵌入特征通过信道解码器及语义解码器实现；

5.根据权利要求1所述的基于语义通信的远程说话人确认方法，其特征在于，将说话人嵌入特征与目标说话人嵌入特征进行比较，判断说话人是否为目标说话人，包括：

6.一种基于语义通信的远程说话人确认方法，其特征在于，应用于远程接收端,具体包括：

7.一种基

8.根据权利要求7所述的基于语义通信的远程说话人确认系统，其特征在于，所述信道包括高斯信道、莱斯信道或瑞利信道。

9.根据权利要求7所述的基于语义通信的远程说话人确认系统，其特征在于，对所述语义编码器、语义解码器进行预训练，所述预训练方法包括：

10.根据权利要求7所述的基于语义通信的远程说话人确认系统，其特征在于，所述信道的信噪比为0~20dB。

...

【技术特征摘要】

1.一种基于语义通信的远程说话人确认方法，其特征在于，应用于本地发送端,具体包括：

5.根据权利要...

【专利技术属性】
技术研发人员：朱云龙，郭海燕，王天朗，郭延民，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人