语音采集方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19483267 阅读:19 留言:0更新日期:2018-11-17 10:57
本发明专利技术公开了一种语音采集方法、装置、计算机设备及存储介质,所述方法包括:在接收到用户通过通讯应用平台的应用账号发送的语料获取请求时,选取对应的初始语料,并获取用户的身份标识信息,在接收到开始录音的请求后,调用通讯应用平台的应用账号的录音功能进行录音,得到录音文件,并调用通讯应用平台的应用账号的离线语音识别功能,将该录音文件转化为目标文本,使用文本匹配算法,将该目标文本与初始语料进行匹配,得到文本相似度,若该文本相似度大于或等于预设的相似度阈值,则将录音文件、身份标识信息和它们之间的映射关系存入到数据库,从而实现了使用通讯应用平台的应用账号对语音数据进行快速采集,提高了语音数据的采集效率。

【技术实现步骤摘要】
语音采集方法、装置、计算机设备及存储介质
本专利技术涉及计算机
,尤其涉及一种语音采集方法、装置、计算机设备及存储介质。
技术介绍
随着科技的进步和计算机网络技术的飞速发展,声纹识别技术和语音识别技术越来越受人们的青睐,其中声纹识别技术用于方便快捷地确定说话人身份,语音识别技术用于在将自然语音进行识别转化成文字,声纹识别技术和语音识别技术都需要采集大量的说话人信息和说话人对应的语音信息,用来进行模型的训练。当前,语音采集主要通过使用专业录音设备进行语音录取,得到录音文件,然后人工标记录音文件对应的说话人,这种人工方式不能及时清除掉不合格的录音,且操作麻烦,使得采集效率低,同时,这种人工采集方式不适用于对距离较远的人员进行语音采集,若需要对不同地区的人员同时进行语音采集,只能通过购置多台录音设备,浪费了大量采集成本。
技术实现思路
基于此,有必要针对上述技术问题,提供一种基于通讯应用平台的应用账号提高语音采集效率和节约采集成本的语音采集方法、装置、计算机设备及存储介质。一种语音采集方法,包括:若接收到用户通过通讯应用平台的应用账号发送的语料获取请求,则获取所述语料获取请求中包含的基础语料和所述用户的身份标识信息;从所述基础语料对应的基础语料库中随机选取一条语料,作为初始语料,并显示在所述通讯应用平台的应用账号的界面上;若接收到所述用户通过所述通讯应用平台的应用账号发送的开始录音请求,则使用预设的录音调用框架,调用所述通讯应用平台的应用账号的录音功能进行录音并生成录音文件;若接收到所述用户通过所述通讯应用平台的应用账号发送的终止录音请求,则使用预设的语音识别调用框架,调用所述通讯应用平台的应用账号的离线语音识别功能将所述录音文件转化为目标文本;对所述目标文本与所述初始语料进行文本相似度匹配,得到所述目标文本与所述初始语料之间的文本相似度;若所述文本相似度大于或等于预设相似度阈值,则建立所述录音文件与所述身份标识信息之间的映射关系,并对应保存所述录音文件、所述身份标识信息和所述映射关系。一种语音采集装置,包括:领域确定模块,用于若接收到用户通过通讯应用平台的应用账号发送的语料获取请求,则获取所述语料获取请求中包含的基础语料和所述用户的身份标识信息;语料选取模块,用于从所述基础语料对应的基础语料库中随机选取一条语料,作为初始语料,并显示在所述通讯应用平台的应用账号的界面上;录音生成模块,用于若接收到所述用户通过所述通讯应用平台的应用账号发送的开始录音请求,则使用预设的录音调用框架,调用所述通讯应用平台的应用账号的录音功能进行录音并生成录音文件;语音识别模块,用于若接收到所述用户通过所述通讯应用平台的应用账号发送的终止录音请求,则使用预设的语音识别调用框架,调用所述通讯应用平台的应用账号的离线语音识别功能将所述录音文件转化为目标文本;文本匹配模块,用于对所述目标文本与所述初始语料进行文本相似度匹配,得到所述目标文本与所述初始语料之间的文本相似度;文件存储模块,用于若所述文本相似度大于或等于预设相似度阈值,则建立所述录音文件与所述身份标识信息之间的映射关系,并对应保存所述录音文件、所述身份标识信息和所述映射关系。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音采集方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音采集方法的步骤。上述语音采集方法、装置、计算机设备及存储介质,若接收到用户通过通讯应用平台的应用账号发送的语料获取请求,则从该请求中包含的基础语料中随机选取一条语料,作为初始语料,并获取用户的身份标识信息,在接收到开始录音的请求后,使用预设的录音调用框架,调用通讯应用平台的应用账号的录音功能进行录音,生成录音文件,并在录音结束后,使用预设的语音识别调用框架,调用通讯应用平台的应用账号的离线语音识别功能,将该录音文件转化为目标文本,进而使用文本匹配算法,将该目标文本与初始语料进行匹配,得到文本相似度,并将该相似度与预设的相似度阈值进行比较,若该相似度大于或等于预设的相似度阈值,则建立录音文件与身份标识信息的映射关系,并保存录音文件、身份标识信息和映射关系到数据库,从而实现了使用通讯应用平台的应用账号对语音数据进行快速采集,利用通讯应用平台的应用账号的便捷性和普遍性,有效提高语音数据的采集效率,同时由于是基于通讯应用平台的应用账号通过网络进行语音采集,对于不同地区的人员无需添加额外购置设备,节约了采集成本。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的语音采集方法的应用环境示意图;图2是本专利技术实施例提供的语音采集方法的实现流程图;图3是本专利技术实施例提供的语音采集方法中步骤S3的实现流程图;图4是本专利技术实施例提供的语音采集方法中步骤S5的实现流程图;图5是本专利技术实施例提供的语音采集方法中步骤S53的实现流程图;图6是本专利技术实施例提供的语音采集方法的另一实现流程图;图7是本专利技术实施例提供的语音采集装置的示意图;图8是本专利技术实施例提供的计算机设备的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,图1示出本专利技术实施例提供的语音采集方法的应用环境。该语音采集方法应用在基于通讯应用平台的应用账号的语音采集场景中。该语音采集场景包括服务端、客户端和通讯应用平台,其中,服务端、客户端和通讯应用平台之间均通过网络互相连接,用户通过客户端从服务端获取语料,并发送语音数据到通讯应用平台,服务端通过通讯应用平台进行录音和语音识别,通讯应用平台将录音文件和语音识别结果发送到服务端,通讯应用平台为即时通讯系统,该即时通讯系统可以传输语音,图片,视频等文件。所述通讯应用平台可以是微信、米聊、易信、支付宝和快乐平安等其他通讯应用平台。第三方软件开发商可以基于通讯应用平台开发各自的应用账号,即通讯应用平台的应用账号。客户端为通讯应用平台的应用账号,该账号具体可以微信公众号、支付宝公众号、微信小程序等,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。请参阅图2,图2示出本专利技术实施例提供的一种语音采集方法,以该方法应用在图1中的服务端为例进行说明,详述如下:S1:若接收到用户通过通讯应用平台的应用账号发送的语料获取请求,则获取语料获取请求中包含的基础语料和该用户的身份标识信息。具体地,在接收到用户通过通讯应用平台的应用账号发送的语料获取请求时,获取该语料获取请求中包含的基础语料,同时,基于通讯应用平台的应用账号,获取该用户的身份标识信息。其中,基础语料包括但不限于:新闻、军事、生活、经济、体育、热点和娱乐等领本文档来自技高网...

【技术保护点】
1.一种语音采集方法,其特征在于,所述语音采集方法包括:若接收到用户通过通讯应用平台的应用账号发送的语料获取请求,则获取所述语料获取请求中包含的基础语料和所述用户的身份标识信息;从所述基础语料对应的基础语料库中随机选取一条语料,作为初始语料,并显示在所述通讯应用平台的应用账号的界面上;若接收到所述用户通过所述通讯应用平台的应用账号发送的开始录音请求,则使用预设的录音调用框架,调用所述通讯应用平台的应用账号的录音功能进行录音并生成录音文件;若接收到所述用户通过所述通讯应用平台的应用账号发送的终止录音请求,则使用预设的语音识别调用框架,调用所述通讯应用平台的应用账号的离线语音识别功能将所述录音文件转化为目标文本;对所述目标文本与所述初始语料进行文本相似度匹配,得到所述目标文本与所述初始语料之间的文本相似度;若所述文本相似度大于或等于预设相似度阈值,则建立所述录音文件与所述身份标识信息之间的映射关系,并对应保存所述录音文件、所述身份标识信息和所述映射关系。

【技术特征摘要】
1.一种语音采集方法,其特征在于,所述语音采集方法包括:若接收到用户通过通讯应用平台的应用账号发送的语料获取请求,则获取所述语料获取请求中包含的基础语料和所述用户的身份标识信息;从所述基础语料对应的基础语料库中随机选取一条语料,作为初始语料,并显示在所述通讯应用平台的应用账号的界面上;若接收到所述用户通过所述通讯应用平台的应用账号发送的开始录音请求,则使用预设的录音调用框架,调用所述通讯应用平台的应用账号的录音功能进行录音并生成录音文件;若接收到所述用户通过所述通讯应用平台的应用账号发送的终止录音请求,则使用预设的语音识别调用框架,调用所述通讯应用平台的应用账号的离线语音识别功能将所述录音文件转化为目标文本;对所述目标文本与所述初始语料进行文本相似度匹配,得到所述目标文本与所述初始语料之间的文本相似度;若所述文本相似度大于或等于预设相似度阈值,则建立所述录音文件与所述身份标识信息之间的映射关系,并对应保存所述录音文件、所述身份标识信息和所述映射关系。2.如权利要求1所述的语音采集方法,其特征在于,所述若接收到所述用户通过所述通讯应用平台的应用账号发送的开始录音请求,则使用预设的录音调用框架,调用所述通讯应用平台的应用账号的录音功能进行录音并生成录音文件包括:若接收到所述开始录音请求,则向所述通讯应用平台发送预设的配置信息,其中,所述配置信息用于对开始录音请求进行权限验证;若接收到所述通讯应用平台发送的授权成功消息,则向所述通讯应用平台发送启用预设的音频接口的指令,使得所述用户使用所述通讯应用平台的应用账号的录音功能进行录音并生成录音文件。3.如权利要求1或2所述的语音采集方法,其特征在于,所述对所述目标文本与所述初始语料进行文本相似度匹配,得到所述目标文本与所述初始语料之间的文本相似度包括:根据预设的正则表达式,确定所述初始语料中的标点符号;对所述标点符号进行删除处理,将得到的文本内容作为目标语料;使用动态规划算法,对所述目标文本和所述目标语料进行相似度计算,得到所述文本相似度。4.如权利要求3所述的语音采集方法,其特征在于,所述使用动态规划算法,对所述目标文本和所述目标语料进行相似度计算,得到所述文本相似度包括:将所述目标文本中的字符依序存入一维数组Xa中,将所述目标语料中的字符依序存入一维数组Yb中,其中,a为所述目标文本的字符个数,b为所述目标语料的字符个数;使用如下公式计算Xa的第i位与Yb的第j位之前的公共子序列长度L(i,j):其中,若same(Xi,Yj)在Xi与Yj相同时,取值为1,否则,same(Xi,Yj)在Xi与Yj不相同时,取值为0,max{L(i-1,j-1)+same(Xi,Yj),L(i-1,j),L(i,j-1)}为取L(i-1,j-1)+same(Xi,Yj)、L(i-1,j)和L(i,j-1)三个表达式中的最大值,i和j均为正整数,且i≤a,j≤b;对所述公共子序列长度进行递归回溯,得到所述公共子序列长度的集合,并从所述集合中获取值最大的公共子序列长度l,作...

【专利技术属性】
技术研发人员:黄锦伦
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1