一种用于语音属性的机器学习的系统和方法技术方案

技术编号：32718166 阅读：10 留言：0更新日期：2022-03-20 08:19

提供了用于语音和其他属性的机器学习的系统和方法。系统接收输入数据，从关注的说话者的分离语音中分离预定声音，总结特征以生成描述说话者的变量，并生成用于检测人的期望特征的预测模型。还提供了用于基于对音频样本或其他类型的数字存储信息(例如，视频、照片等)的分析来检测说话者的一个或多个属性的系统和方法。和方法。和方法。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种用于语音属性的机器学习的系统和方法
[0001]相关申请
[0002]本申请要求2019年5月30日提交的美国临时专利申请62/854,652、2020年3月13日提交的美国临时专利申请62/989,485和2020年5月1日提交的美国临时专利申请63/018,892的优先权，其全部公开内容通过引用明确并入本文。

[0003]本专利技术总体涉及机器学习
更具体地说，本专利技术涉及用于语音属性的机器学习的系统和方法。

技术介绍

[0004]在机器学习领域，人们对开发基于计算机的机器学习系统非常关注，该系统可以识别人的声音的各种特征。此类系统在保险业中特别受关注。随着人寿保险行业越来越多地采用加速承保，主要的担忧是那些不自我认定为吸烟者的吸烟者的保费流失。例如，据估计，60岁的男性吸烟者为20年定期人寿保单支付的保费将比非吸烟者多付大约50000美元。因此，吸烟者有明显的动机试图避免自我识别为吸烟者，据估计，50％的吸烟者在人寿保险申请中没有正确的自我识别。作为回应，运营商正在寻找实时识别吸烟者的解决方案，以便那些被识别出吸烟可能性高的人可以通过更全面的承保流程被搜寻(routed)。
[0005]大量学术文献表明，吸烟会刺激声襞(如声带)，这表现为人的声音的许多变化，如基频变化、扰动特征(如振幅微扰(shimmer)和基频微扰(jitter))和震颤特征。这些变化使得通过分析他们的声音来识别单个说话者是否是吸烟者成为可能。
[0006]除了检测诸如说话者是否吸烟者之类的语音属...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于从输入数据检测至少一个语音属性的机器学习系统，包括：与输入数据数据库通信的处理器；和由处理器执行的预测语音模型，所述预测语音模型：从数据库接收输入数据；处理所述输入数据以从所述输入数据中识别关注的说话者；分离与关注的说话者对应的一个或多个预定声音；从一个或多个预定声音生成多个向量；从一个或多个预定声音生成多个特征；处理所述多个特征以生成描述关注的说话者的多个变量；和处理所述多个变量和向量以检测所述至少一个语音属性。2.根据权利要求1所述的系统，其中所述预测模型处理人口统计数据、语音数据、信用数据、生活方式数据、处方数据、社交媒体数据或图像数据中的一个或多个。3.根据权利要求1所述的系统，其中所述多个向量包含多个i向量。4.根据权利要求3所述的系统，其中多个变量包括多个描述关注的说话者的泛函。5.根据权利要求4所述的系统，其中所述预测语音模型处理所述多个i向量和所述多个泛函以检测所述至少一个语音属性。6.根据权利要求1所述的系统，其中所述至少一个语音属性包括频率、扰动特征、震颤特征、持续时间或音色中的一个或多个。7.根据权利要求1所述的系统，其中所述多个特征包括梅尔倒频谱系数。8.根据权利要求1所述的系统，其中所述至少一个语音属性包括个体是否为吸烟者的指示。9.根据权利要求1所述的系统，其中所述至少一个语音属性指示以下一项或多项：呼吸状况、年龄、性别、一般声音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征或通过人的声音中可感知的变化表现出来的属性。10.一种用于从输入数据检测至少一个语音属性的机器学习方法，包括以下步骤：从数据库接收输入数据；处理所述输入数据以从所述输入数据中识别关注的说话者；分离与关注的说话者对应的一个或多个预定声音；从一个或多个预定声音生成多个向量；从一个或多个预定声音生成多个特征；处理所述多个特征以生成描述关注的说话者的多个变量；和处理所述多个变量和向量以检测所述至少一个语音属性。11.根据权利要求10所述的方法，还包括处理人口统计数据、语音数据、信用数据、生活方式数据、处方数据、社交媒体数据或图像数据中的一个或多个。12.根据权利要求10所述的方法，其中所述多个向量包含多个i向量。13.根据权利要求12所述的方法，其中所述多个变量包括多个描述关注的说话者的泛
函。14.根据权利要求13所述的方法，还包括处理所述多个i向量和所述多个泛函以检测所述至少一个语音属性。15.根据权利要求10所述的方法，其中所述至少一个语音属性包括频率、扰动特征、震颤特征、持续时间或音色中的一个或多个。16.根据权利要求10所述的方法，其中所述多个特征包括梅尔倒频谱系数。17.根据权利要求10所述的方法，其中所述至少一个语音属性包括个体是否为吸烟者的指示。18.根据权利要求10所述的方法，其中所述至少一种语音属性指示以下一项或多项：呼吸状况、年龄、性别、一般声音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征，或通过人的声音中可感知的变化表现出来的属性。19.一种用于从输入数据生成一个或多个语音度量的机器学习系统，包括：接收至少一个语音信号的处理器；由处理器执行的感知子系统，感知子系统使用人类听觉感知过程处理至少一个语音信号；由所述处理器执行的泛函子系统，所述泛函子系统处理所述至少一个语音信号以从所述至少一个语音信号生成衍生函数；由处理器执行的深度卷积神经网络(CNN)子系统，深度CNN子系统将一个或多个CNN应用于最后一个语音信号；和由处理器执行的集成模型，所述合奏模型处理由感知子系统、泛函子系统和深度CNN子系统生成的信息，以基于所述信息生成一个或多个语音度量。20.根据权利要求19所述的机器学习系统，其中所述处理器对所述至少一个语音信号执行数字信号处理、音频分割或说话者分类中的至少一个。21.根据权利要求19所述的机器学习系统，其中集成模型处理由感知子系统、泛函子系统和深度CNN子系统生成的后验概率以及相关的置信度得分，以生成最终预测。22.根据权利要求19所述的机器学习系统，其中所述一个或多个语音度量包括个体是否为吸烟者的指示。23.根据权利要求19所述的机器学习系统，其中所述一个或多个语音度量指示以下一项或多项：呼吸状况、年龄、性别、一般声音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征，或通过人的声音中可感知的变化表现出来的属性。24.一种用于从输入数据生成一个或多个语音度量的机器学习方法，包括以下步骤：接收至少一个语音信号；使用由处理器执行的感知子系统处理所述至少一个语音信号，所述感知子系统使用人
类听觉感知过程处理所述至少一个语音信号；使用由处理器执行的泛函子系统处理所述至少一个语音信号，所述泛函子系统处理所述至少一个语音信号以从所述至少一个语音信号生成衍生函数；使用由处理器执行的深度卷积神经网络(CNN)子系统处理至少一个语音信号，深度CNN子系统将一个或多个CNN应用于最后一个语音信号；和使用集成模型处理感知子系统、泛函子系统和深度CNN子系统生成的信息，以根据信息生成一个或多个语音度量。25.根据权利要求24所述的方法，还包括对所述至少一个语音信号执行数字信号处理、音频分割或说话者分类中的至少一个。26.根据权利要求24所述的方法，还包括处理由感知子系统、泛函子系统和深度CNN子系统生成的后验概率以及相关的置信分数，以生成最终预测。27.根据权利要求24所述的方法，其中所述一个或多个语音度量包括个体是否为吸烟者的指示。28.根据权利要求24所述的方法，其中所述一个或多个语音度量指示以下一项或多项：呼吸状况、年龄、性别、一般声音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森氏病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征或通过人的声音中可感知的变化表现出来的属性。29.一种用于从一个或多个语音样本中检测个人的一个或多个预定属性并响应于所述一个或多个检测到的属性而执行一个或多个行动的系统，包括：处理器，从源接收人的音频样本；和由处理器执行的语音属性检测代码，所述代码使处理器:使用预测语音模型处理所述个人的第一音频样本和第二音频样本，所述第一音频样本包括在第一次进行的所述个人的录音，所述第二音频样本包括在第一次之后的第二次进行的所述个人的录音；基于对所述第一音频样本和第二音频样本的处理，检测所述个人的预定属性是否存在，以及当检测到说话者的预定属性时，基于预定属性执行行动。30.根据权利要求29所述的系统，其中所述第一音频样本和所述第二音频样本各自包括对说话者的声音、语音、歌唱、呼吸、咳嗽、噪音、音色、语调、节奏、语音模式或从说话者声道发出的可检测音频特征中一个或多个的记录。31.根据权利要求29所述的系统，其中所述第一音频样本和所述第二音频样本各自包括所述说话者在两个样本中说相同短语的录音。32.根据权利要求29所述的系统，其中，当检测到说话者的预定属性时，处理器生成并发送关于预定属性的警报。33.根据权利要求32所述的系统，其中警报传输给第三方，第三方对警报采取行动。34.根据权利要求33所述的系统，其中所述第三方包括医疗提供者、政府实体或研究实体中的一个或多个。
35.根据权利要求29所述的系统，其中，响应于对所述预定属性的检测，所述系统确定在地理上接近所述个人的一个或多个其他人是否也具有所述预定属性。36.根据权利要求35所述的系统，其中所述系统向与所述预定属性相关的一个或多个其他人广播警报。37.根据权利要求29所述的系统，其中所述预定属性指示以下一项或多项：呼吸状况、年龄、性别、一般嗓音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森氏病，精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征，或通过人的声音中可感知的变化表现出来的属性。38.根据权利要求29所述的系统，其中所述第一音频样本和第二音频样本是使用计算机系统、智能电话、智能扬声器、语音邮件录制、语音邮件服务器、语音邮件问候语、录制的音频样本、一个或多个视频剪辑或社交媒体平台中的一个或多个获得的。39.根据权利要求29所述的系统，其中，响应于对所述预定属性的检测，所述系统请求所述个人记录进一步的音频样本以供所述系统进一步处理。40.根据权利要求39所述的系统，其中所述系统处理所述进一步的音频样本以检测所述个人正在经历的一种或多种医疗状况的发作或进展。41.根据权利要求29所述的系统，其中所述系统将有...

【专利技术属性】
技术研发人员：E，
申请(专利权)人：保险服务办公室股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人