一种用于语音属性的机器学习的系统和方法技术方案

技术编号:32718166 阅读:10 留言:0更新日期:2022-03-20 08:19
提供了用于语音和其他属性的机器学习的系统和方法。系统接收输入数据,从关注的说话者的分离语音中分离预定声音,总结特征以生成描述说话者的变量,并生成用于检测人的期望特征的预测模型。还提供了用于基于对音频样本或其他类型的数字存储信息(例如,视频、照片等)的分析来检测说话者的一个或多个属性的系统和方法。和方法。和方法。

【技术实现步骤摘要】
【国外来华专利技术】一种用于语音属性的机器学习的系统和方法
[0001]相关申请
[0002]本申请要求2019年5月30日提交的美国临时专利申请62/854,652、2020年3月13日提交的美国临时专利申请62/989,485和2020年5月1日提交的美国临时专利申请63/018,892的优先权,其全部公开内容通过引用明确并入本文。


[0003]本专利技术总体涉及机器学习
更具体地说,本专利技术涉及用于语音属性的机器学习的系统和方法。

技术介绍

[0004]在机器学习领域,人们对开发基于计算机的机器学习系统非常关注,该系统可以识别人的声音的各种特征。此类系统在保险业中特别受关注。随着人寿保险行业越来越多地采用加速承保,主要的担忧是那些不自我认定为吸烟者的吸烟者的保费流失。例如,据估计,60岁的男性吸烟者为20年定期人寿保单支付的保费将比非吸烟者多付大约50000美元。因此,吸烟者有明显的动机试图避免自我识别为吸烟者,据估计,50%的吸烟者在人寿保险申请中没有正确的自我识别。作为回应,运营商正在寻找实时识别吸烟者的解决方案,以便那些被识别出吸烟可能性高的人可以通过更全面的承保流程被搜寻(routed)。
[0005]大量学术文献表明,吸烟会刺激声襞(如声带),这表现为人的声音的许多变化,如基频变化、扰动特征(如振幅微扰(shimmer)和基频微扰(jitter))和震颤特征。这些变化使得通过分析他们的声音来识别单个说话者是否是吸烟者成为可能。
[0006]除了检测诸如说话者是否吸烟者之类的语音属性外,能够通过对说话者的语音分析以及对诸如视频分析、照片分析等其他属性的分析来检测说话者的其他属性也具有巨大的价值。例如,在医疗领域,根据对个体的声音或从声道发出的其他声音(如呼吸系统疾病、神经系统疾病、生理疾病和其他损伤和状况)的评估,检测个体是否患有疾病是非常有益的。更进一步,通过定期分析个体的声音来检测上述状况随时间的进展状况,并在检测到关注的状况时采取各种行动(例如物理上定位个体、向一个或多个个体提供健康警报(例如,有针对性的基于社区的警报、较大的广播警报等)、根据检测到的状况启动医疗护理等)将是有益的,状况。此外,能够使用常见的通信设备(如移动电话、智能扬声器、计算机等)远程进行社区监测和疾病及其他状况的检测将是非常有益的。
[0007]因此,需要用于机器学习的系统和方法来学习语音和其他属性,并检测与个体和社区相关的各种状况和标准。这些和其他需求由本公开的系统和方法解决。

技术实现思路

[0008]本专利技术涉及用于语音和其他属性的机器学习的系统和方法。系统首先接收输入数据,输入数据可以是人类语音,例如个人讲话的一个或多个录音(例如独白、演讲等)和/或两个或多个说话者之间的一个或多个对话(例如,录音对话、电话对话、互联网语音协议

VoIP”对话、小组对话等)。然后,该系统通过执行说话者分类(diarization)来分离关注的说话者,该分类根据说话者身份将音频流划分为同质段。接下来,系统从关注的说话者的分离语音中分离预定的声音,例如元音,以生成特征。这些特征是描述说话者的声音在小的时间间隔内声谱的数学变量。然后,系统总结特征以生成描述说话者的变量。最后,系统生成预测模型,该预测模型可应用于声音数据以检测人的期望特征(例如,该人是否吸烟)。例如,系统生成由标签和生成的泛函组成的建模数据集,其中标签指示说话者的性别、年龄、吸烟者状态(例如,吸烟者或非吸烟者)等。预测模型允许使用吸烟者状态标签作为目标变量和其他标签(如性别、年龄等)作为预测变量对吸烟者状态进行建模。
[0009]还提供了用于基于对语音样本或其他类型的数字存储信息(例如,视频、照片等)的分析来检测说话者的一个或多个属性的系统和方法。从一个或多个来源获得个人的音频样本,例如预录制样本(例如,语音邮件样本)或从说话者录制的现场音频样本。这些样本可以使用多种设备(例如智能扬声器、智能电话、个人计算机系统、网络浏览器或能够记录说话者语音样本的其他设备)获得。系统使用预测语音模型处理音频样本,以检测是否存在预先确定的属性。如果存在预先确定的属性,则系统可以向用户指示该属性(例如,使用用户的智能手机、智能扬声器、个人计算机或其他设备),并且可选地,可以采取一个或多个附加操作。例如,系统可以识别用户的物理位置(例如,使用一个或多个地理定位技术)、执行聚类分析以识别具有相同(或类似)属性的个体的集群是否存在并被定位、广播一个或多个警报或将检测到的属性传输到一个或多个第三方计算机系统(例如,通过使用加密的安全传输,或通过一些其他安全手段)以进行进一步处理。可选地,系统可以从个体获得进一步的语音样本(例如,随着时间的推移周期性地),以便检测和跟踪医疗状况的开始或这种状况的进展。
附图说明
[0010]本专利技术的上述特征将从以下结合附图的详细描述中显而易见,其中:
[0011]图1是示出本公开的整体系统的示意图;
[0012]图2是示出由本公开的系统执行的总体处理步骤的流程图;
[0013]图3是示出应用于各种不同数据的本公开的预测语音模型的图;
[0014]图4是示出能够用于实现本公开的系统的示例硬件和软件组件的图;
[0015]图5是示出能够由本公开的预测语音模型执行的附加处理的流程图;
[0016]图6是示出了由本公开的系统执行的处理步骤的流程图,该处理步骤用于通过分析个体的语音样本来检测一个或多个医疗状况,并响应于检测到的医疗状况采取一个或多个行动;
[0017]图7是示出由系统执行的用于从个体获取一个或多个语音样本的处理步骤的流程图;
[0018]图8是示出由系统执行的处理步骤的流程图,该处理步骤用于响应于一个或多个检测到的医疗状况来执行各种行动;和
[0019]图9是示出可使用本专利技术操作的各种硬件组件的示意图。
具体实施方式
[0020]本公开涉及用于语音和其他属性的机器学习的系统和方法,如下面结合图1至9详细描述的。本文所使用的术语“声音”是指可以从人的声道发出的任何声音,例如人声、语音、歌唱、呼吸、咳嗽、噪音、音色、语调、节奏、语音模式或从声道发出的任何其他可检测的可听信号。
[0021]图1是说明本公开的系统的示意图,本公开的系统总体上用10表示。系统10包括语音属性机器学习系统12,其接收输入数据16和预测语音模型14。语音属性机器学习系统12和预测语音模型14处理输入数据16以检测说话者是否具有预定特性(例如,如果说话者是吸烟者),并生成语音属性输出数据18。下面将更详细地讨论语音属性机器学习系统12。重要的是,机器学习系统12允许以比现有系统更高的精度检测各种说话者特性。此外,系统12可以检测与其他类型的信息(例如说话者的生活方式、人口统计、社交媒体、处方信息、信用信息、过敏、医疗状况、医疗问题、购买信息等)正交的语音成分。
[0022]输入数据16可以是人类语音。例如,输入数据16可以是说话的人的一个或多个记本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于从输入数据检测至少一个语音属性的机器学习系统,包括:与输入数据数据库通信的处理器;和由处理器执行的预测语音模型,所述预测语音模型:从数据库接收输入数据;处理所述输入数据以从所述输入数据中识别关注的说话者;分离与关注的说话者对应的一个或多个预定声音;从一个或多个预定声音生成多个向量;从一个或多个预定声音生成多个特征;处理所述多个特征以生成描述关注的说话者的多个变量;和处理所述多个变量和向量以检测所述至少一个语音属性。2.根据权利要求1所述的系统,其中所述预测模型处理人口统计数据、语音数据、信用数据、生活方式数据、处方数据、社交媒体数据或图像数据中的一个或多个。3.根据权利要求1所述的系统,其中所述多个向量包含多个i向量。4.根据权利要求3所述的系统,其中多个变量包括多个描述关注的说话者的泛函。5.根据权利要求4所述的系统,其中所述预测语音模型处理所述多个i向量和所述多个泛函以检测所述至少一个语音属性。6.根据权利要求1所述的系统,其中所述至少一个语音属性包括频率、扰动特征、震颤特征、持续时间或音色中的一个或多个。7.根据权利要求1所述的系统,其中所述多个特征包括梅尔倒频谱系数。8.根据权利要求1所述的系统,其中所述至少一个语音属性包括个体是否为吸烟者的指示。9.根据权利要求1所述的系统,其中所述至少一个语音属性指示以下一项或多项:呼吸状况、年龄、性别、一般声音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征或通过人的声音中可感知的变化表现出来的属性。10.一种用于从输入数据检测至少一个语音属性的机器学习方法,包括以下步骤:从数据库接收输入数据;处理所述输入数据以从所述输入数据中识别关注的说话者;分离与关注的说话者对应的一个或多个预定声音;从一个或多个预定声音生成多个向量;从一个或多个预定声音生成多个特征;处理所述多个特征以生成描述关注的说话者的多个变量;和处理所述多个变量和向量以检测所述至少一个语音属性。11.根据权利要求10所述的方法,还包括处理人口统计数据、语音数据、信用数据、生活方式数据、处方数据、社交媒体数据或图像数据中的一个或多个。12.根据权利要求10所述的方法,其中所述多个向量包含多个i向量。13.根据权利要求12所述的方法,其中所述多个变量包括多个描述关注的说话者的泛
函。14.根据权利要求13所述的方法,还包括处理所述多个i向量和所述多个泛函以检测所述至少一个语音属性。15.根据权利要求10所述的方法,其中所述至少一个语音属性包括频率、扰动特征、震颤特征、持续时间或音色中的一个或多个。16.根据权利要求10所述的方法,其中所述多个特征包括梅尔倒频谱系数。17.根据权利要求10所述的方法,其中所述至少一个语音属性包括个体是否为吸烟者的指示。18.根据权利要求10所述的方法,其中所述至少一种语音属性指示以下一项或多项:呼吸状况、年龄、性别、一般声音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征,或通过人的声音中可感知的变化表现出来的属性。19.一种用于从输入数据生成一个或多个语音度量的机器学习系统,包括:接收至少一个语音信号的处理器;由处理器执行的感知子系统,感知子系统使用人类听觉感知过程处理至少一个语音信号;由所述处理器执行的泛函子系统,所述泛函子系统处理所述至少一个语音信号以从所述至少一个语音信号生成衍生函数;由处理器执行的深度卷积神经网络(CNN)子系统,深度CNN子系统将一个或多个CNN应用于最后一个语音信号;和由处理器执行的集成模型,所述合奏模型处理由感知子系统、泛函子系统和深度CNN子系统生成的信息,以基于所述信息生成一个或多个语音度量。20.根据权利要求19所述的机器学习系统,其中所述处理器对所述至少一个语音信号执行数字信号处理、音频分割或说话者分类中的至少一个。21.根据权利要求19所述的机器学习系统,其中集成模型处理由感知子系统、泛函子系统和深度CNN子系统生成的后验概率以及相关的置信度得分,以生成最终预测。22.根据权利要求19所述的机器学习系统,其中所述一个或多个语音度量包括个体是否为吸烟者的指示。23.根据权利要求19所述的机器学习系统,其中所述一个或多个语音度量指示以下一项或多项:呼吸状况、年龄、性别、一般声音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征,或通过人的声音中可感知的变化表现出来的属性。24.一种用于从输入数据生成一个或多个语音度量的机器学习方法,包括以下步骤:接收至少一个语音信号;使用由处理器执行的感知子系统处理所述至少一个语音信号,所述感知子系统使用人
类听觉感知过程处理所述至少一个语音信号;使用由处理器执行的泛函子系统处理所述至少一个语音信号,所述泛函子系统处理所述至少一个语音信号以从所述至少一个语音信号生成衍生函数;使用由处理器执行的深度卷积神经网络(CNN)子系统处理至少一个语音信号,深度CNN子系统将一个或多个CNN应用于最后一个语音信号;和使用集成模型处理感知子系统、泛函子系统和深度CNN子系统生成的信息,以根据信息生成一个或多个语音度量。25.根据权利要求24所述的方法,还包括对所述至少一个语音信号执行数字信号处理、音频分割或说话者分类中的至少一个。26.根据权利要求24所述的方法,还包括处理由感知子系统、泛函子系统和深度CNN子系统生成的后验概率以及相关的置信分数,以生成最终预测。27.根据权利要求24所述的方法,其中所述一个或多个语音度量包括个体是否为吸烟者的指示。28.根据权利要求24所述的方法,其中所述一个或多个语音度量指示以下一项或多项:呼吸状况、年龄、性别、一般声音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森氏病、精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征或通过人的声音中可感知的变化表现出来的属性。29.一种用于从一个或多个语音样本中检测个人的一个或多个预定属性并响应于所述一个或多个检测到的属性而执行一个或多个行动的系统,包括:处理器,从源接收人的音频样本;和由处理器执行的语音属性检测代码,所述代码使处理器:使用预测语音模型处理所述个人的第一音频样本和第二音频样本,所述第一音频样本包括在第一次进行的所述个人的录音,所述第二音频样本包括在第一次之后的第二次进行的所述个人的录音;基于对所述第一音频样本和第二音频样本的处理,检测所述个人的预定属性是否存在,以及当检测到说话者的预定属性时,基于预定属性执行行动。30.根据权利要求29所述的系统,其中所述第一音频样本和所述第二音频样本各自包括对说话者的声音、语音、歌唱、呼吸、咳嗽、噪音、音色、语调、节奏、语音模式或从说话者声道发出的可检测音频特征中一个或多个的记录。31.根据权利要求29所述的系统,其中所述第一音频样本和所述第二音频样本各自包括所述说话者在两个样本中说相同短语的录音。32.根据权利要求29所述的系统,其中,当检测到说话者的预定属性时,处理器生成并发送关于预定属性的警报。33.根据权利要求32所述的系统,其中警报传输给第三方,第三方对警报采取行动。34.根据权利要求33所述的系统,其中所述第三方包括医疗提供者、政府实体或研究实体中的一个或多个。
35.根据权利要求29所述的系统,其中,响应于对所述预定属性的检测,所述系统确定在地理上接近所述个人的一个或多个其他人是否也具有所述预定属性。36.根据权利要求35所述的系统,其中所述系统向与所述预定属性相关的一个或多个其他人广播警报。37.根据权利要求29所述的系统,其中所述预定属性指示以下一项或多项:呼吸状况、年龄、性别、一般嗓音病理学、区域口音、体型、吸引力、性取向、社会地位、个性、情感、欺骗、嗜睡、水合作用、压力、干燥综合征、关节炎、痴呆症、帕金森氏病,精神分裂症、反流、酒精中毒、流行病学、大麻中毒、血氧水平、医疗状况、呼吸系统症状、呼吸系统疾病、疾病、神经系统疾病、神经系统失调、情绪、生理特征,或通过人的声音中可感知的变化表现出来的属性。38.根据权利要求29所述的系统,其中所述第一音频样本和第二音频样本是使用计算机系统、智能电话、智能扬声器、语音邮件录制、语音邮件服务器、语音邮件问候语、录制的音频样本、一个或多个视频剪辑或社交媒体平台中的一个或多个获得的。39.根据权利要求29所述的系统,其中,响应于对所述预定属性的检测,所述系统请求所述个人记录进一步的音频样本以供所述系统进一步处理。40.根据权利要求39所述的系统,其中所述系统处理所述进一步的音频样本以检测所述个人正在经历的一种或多种医疗状况的发作或进展。41.根据权利要求29所述的系统,其中所述系统将有...

【专利技术属性】
技术研发人员:E
申请(专利权)人:保险服务办公室股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1