一种语音播放方法和装置,所述方法包括:获取包含至少一个说话者的原始音频流;根据预设训练算法,对所述原始音频流进行训练;将所述训练后的音频流加载在流媒体文件中,以进行播放。以此,可以播放出精确度较高、失真度较小的音频数据。
【技术实现步骤摘要】
本专利技术属于语音识别
,尤其涉及一种语音播放方法和装置。
技术介绍
声纹识别是一种利用人的声音实现的识别技术,由于人在讲话时使用的发声器官存在一定的差异性,任何两个人声音的声纹图谱都有差异,所以声纹可以作为表征个体差异的生物特征,也即可以通过建立声纹特征模型来表征不同的个体,进而利用该声纹特征模型进行识别不同的个体等。目前声纹特征模型的应用存在一个两难的选择,主要体现在训练语料的长度选取上,一般而言,声纹训练语料越长,建立的特征模型越精确,识别准确率越高,但是实用性不强;声纹训练语料较短,能保证较好的实用性,但识别准确率不高。而在实际应用中,比如手机屏幕声纹解锁的应用等,既要求有较高的识别准确率,以满足安全性,又要求训练语料不能太长,以保证较好的实用性。现有的声纹特征模型建立方法是通过在声纹注册阶段,由用户手动多次训练,每次训练均为短语料,最终将他们组合成较长的训练语料来生成特征模型。然而,由用户手动多次录入一定时长的训练语料,会给用户较差的体验,不具备较高的实用性;组合起来的训练语料长度仍然有限,不能生成较精确的特征模型,识别准确率无法进一步提升;语速语调的变化、情绪波动等也都会影响模型建立的精确度。所以,如何在保证较高的实用性前提下,提高声纹特征模型精确度,进而提高识别准确率是急需解决的问题。
技术实现思路
基于此,为了解决上述问题,提供了一种语音播放方法和装置。一种语音播放方法,所述方法包括:获取包含至少一个说话者的原始音频流;根据预设训练算法,对所述原始音频流进行训练;<br>将所述训练后的音频流加载在流媒体文件中,以进行播放。在其中一个实施例中,所述方法还包括:建立训练样本库。在其中一个实施例中,所述根据预设训练算法,对所述原始音频流进行训练包括:对原始音频流进行分割,得到模拟音频流和真实音频流;对模拟音频流和真实音频流进行冲激,根据冲激音频流。在其中一个实施例中,所述将所述训练后的音频流加载在流媒体文件中,以进行播放包括:判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象;若匹配,则将该冲激音频流作为训练后的音频流加载在流媒体文件中,以进行播放。在其中一个实施例中,所述方法还包括:测试所述流媒体文件是否失真。一种语音播放装置,所述装置包括:获取模块,用于获取包含至少一个说话者的原始音频流;训练模块,用于根据预设训练算法,对所述原始音频流进行训练;播放模块,用于将所述训练后的音频流加载在流媒体文件中,以进行播放。在其中一个实施例中,所述装置还包括:建立模块,用于建立训练样本库。在其中一个实施例中,所述训练模块包括:分割单元,用于对原始音频流进行分割,得到模拟音频流和真实音频流;冲激单元,用于对模拟音频流和真实音频流进行冲激,根据冲激音频流。在其中一个实施例中,所述播放模块包括:判断单元,用于判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象;播放单元,用于当匹配,则将该冲激音频流作为训练后的音频流加载在流媒体文件中,以进行播放。在其中一个实施例中,所述装置还包括:测试模块,用于测试所述流媒体文件是否失真。有益效果:一种语音播放方法,所述方法包括:获取包含至少一个说话者的原始音频流;根据预设训练算法,对所述原始音频流进行训练;将所述训练后的音频流加载在流媒体文件中,以进行播放。以此,可以播放出精确度较高、失真度较小的音频数据。附图说明图1是本专利技术一种语音播放方法的方法流程图。图2是本专利技术一种语音播放装置的模块框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下结合具体实施例对本专利技术的具体实现进行详细描述:实施例一:如图1所示,一种语音播放方法,所述方法包括:S101:获取包含至少一个说话者的原始音频流;S102:根据预设训练算法,对所述原始音频流进行训练;S103:将所述训练后的音频流加载在流媒体文件中,以进行播放。在本实施例中,所述方法还包括:建立训练样本库。在本实施例中,所述根据预设训练算法,对所述原始音频流进行训练包括:对原始音频流进行分割,得到模拟音频流和真实音频流;对模拟音频流和真实音频流进行冲激,根据冲激音频流。在本实施例中,所述将所述训练后的音频流加载在流媒体文件中,以进行播放包括:判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象;若匹配,则将该冲激音频流作为训练后的音频流加载在流媒体文件中,以进行播放。在本实施例中,所述方法还包括:测试所述流媒体文件是否失真。实施例2一种语音播放装置,所述装置包括:获取模块201,用于获取包含至少一个说话者的原始音频流;训练模块202,用于根据预设训练算法,对所述原始音频流进行训练;播放模块203,用于将所述训练后的音频流加载在流媒体文件中,以进行播放。在本实施例中,所述装置还包括:建立模块,用于建立训练样本库。在本实施例中,所述训练模块包括:分割单元,用于对原始音频流进行分割,得到模拟音频流和真实音频流;冲激单元,用于对模拟音频流和真实音频流进行冲激,根据冲激音频流。在本实施例中,所述播放模块包括:判断单元,用于判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象;播放单元,用于当匹配,则将该冲激音频流作为训练后的音频流加载在流媒体文件中,以进行播放。在本实施例中,所述装置还包括:测试模块,用于测试所述流媒体文件是否失真。需要说明的是,该装置可以为包括手机、平板电脑、PDA(PersonalDigitalAssistant,个人数字助理)、POS(PointofSales,销售终端)、车载电脑等终端设备,以终端为手机为例,手机包括RF(RadioFrequency,射频)电路、存储器、输入单元、显示单元、传感器、音频电路、WiFi(wirelessfidelity,无线保真)模块、处理器、以及电源等部件。本RF电路可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(LowNoiseAmplifier,低噪声放大器)、双工器等。此外,RF电路还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(GlobalSystemofMobilecommunication,全球移动通讯系统)、GPRS(GeneralPacketRa本文档来自技高网...
【技术保护点】
一种语音播放方法,其特征在于,所述方法包括:获取包含至少一个说话者的原始音频流;根据预设训练算法,对所述原始音频流进行训练;将所述训练后的音频流加载在流媒体文件中,以进行播放。
【技术特征摘要】
1.一种语音播放方法,其特征在于,所述方法包括:
获取包含至少一个说话者的原始音频流;
根据预设训练算法,对所述原始音频流进行训练;
将所述训练后的音频流加载在流媒体文件中,以进行播放。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
建立训练样本库。
3.如权利要求1或2所述的方法,其特征在于,所述根据预设训练算法,对所述原始音频流进行训练包括:
对原始音频流进行分割,得到模拟音频流和真实音频流;
对模拟音频流和真实音频流进行冲激,根据冲激音频流。
4.如权利要求3中所述的方法,其特征在于,所述将所述训练后的音频流加载在流媒体文件中,以进行播放包括:
判断所述冲激音频流在所述训练样本库中是否找到匹配的样本对象;
若匹配,则将该冲激音频流作为训练后的音频流加载在流媒体文件中,以进行播放。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
测试所述流媒体文件是否失真。
6.一种语音播放装置,其特...
【专利技术属性】
技术研发人员:曾戟,
申请(专利权)人:曾戟,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。