录音文本生成方法、装置及设备制造方法及图纸

技术编号:20363206 阅读:37 留言:0更新日期:2019-02-16 16:40
本说明书实施例提供一种录音文本生成方法、装置及设备,本说明书实施例从数据源中获取备选录音文本,并根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表。由于语句权重值可以由语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种作为评价因子进行计算而获得,而基于倒排索引表能索引到每个音节所在语句,因此,可以将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。

【技术实现步骤摘要】
录音文本生成方法、装置及设备
本说明书涉及数据处理领域,尤其涉及录音文本生成方法、装置及设备。
技术介绍
不管是语音识别场景,还是语音合成场景,为了训练良好的声学模型,都需要依赖大量的语音数据以及与语音数据对应的正确的文本信息,语音数据以及与语音数据对应的正确的文本信息,可以简称为文本语音对。目前,常根据录音文本以及朗读该录音文本而获得的录音数据,构建文本语音对。因此,录音文本的选取尤为重要。
技术实现思路
为克服相关技术中存在的问题,本说明书提供了录音文本生成方法、装置及设备。根据本说明书实施例的第一方面,提供一种录音文本生成方法,所述方法包括:从数据源中获取备选录音文本;根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。在一个实施例中,所述数据源包括新闻语料库和网络百科库,所述备选录音文本包括新闻文本和百科词条的摘要。在一个实施例中,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值;和/或,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。在一个实施例中,所述语句中不同音节的分布信息包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。在一个实施例中,所述根据备选录音文本中语句的相关信息确定语句权重值,包括:从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。在一个实施例中,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设条数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。在一个实施例中,所述将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本,包括:针对每个音节执行语句抽取操作,包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。根据本说明书实施例的第二方面,提供一种录音文本生成装置,所述装置包括:文本获取模块,用于从数据源中获取备选录音文本;集合构成模块,用于根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;索引表建立模块,用于针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;语句抽取模块,用于将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。在一个实施例中,所述数据源包括新闻语料库和网络百科库,所述备选录音文本包括新闻文本和百科词条的摘要。在一个实施例中,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值;和/或,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。在一个实施例中,所述语句中不同音节的分布信息包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。在一个实施例中,所述集合构成模块,具体用于:从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。在一个实施例中,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设条数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。在一个实施例中,所述语句抽取模块,具体用于:针对每个音节执行语句抽取操作,包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如下方法:从数据源中获取备选录音文本;根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。本说明书的实施例提供的技术方案可以包括以下有益效果:本说明书实施例从数据源中获取备选录音文本,并根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表。由于语句权重值可以以语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种作为评价因子进行计算获得,而基于倒排索引表能索引到每个音节所在语句,因此,可以将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。可见,通过本说明书实施例能生成音节分布更好的录音文本。应当理解的是,以上本文档来自技高网...

【技术保护点】
1.一种录音文本生成方法,所述方法包括:从数据源中获取备选录音文本;根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。

【技术特征摘要】
1.一种录音文本生成方法,所述方法包括:从数据源中获取备选录音文本;根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。2.根据权利要求1所述的方法,所述数据源包括新闻语料库和网络百科库,所述备选录音文本包括新闻文本和百科词条的摘要。3.根据权利要求2所述的方法,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值;和/或,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。4.根据权利要求1所述的方法,所述语句中不同音节的分布信息包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。5.根据权利要求4所述的方法,所述根据备选录音文本中语句的相关信息确定语句权重值,包括:从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。6.根据权利要求1至5任一项所述的方法,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设条数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。7.根据权利要求6所述的方法,所述将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本,包括:针对每个音节执行语句抽取操作,包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。8.一种录音文本生成装置,所述装置包括:文本获取模块,用于从数据源中获取备选录音文本;集合构成模块,用于根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语...

【专利技术属性】
技术研发人员:韩喆官砚楚陈力杨磊吴军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1