并发进行语音识别、说话者分段和分类的方法技术

技术编号:3047471 阅读:246 留言:0更新日期:2012-04-11 18:40
说明了一种方法和装置,用于从音频-视频源自动转换声音信息及并发地辨识说话者。所说明的声音转换和说话者分类系统包括一个语音识别系统、一个说话者分段系统和一个说话者辨识系统。一个公共前端处理器计算特征矢量,这些特征矢量由语音识别系统、说话者分段系统和说话者分类系统在一个多线程环境中沿平行分支进行处理,例如使用一个共享存储器结构,它以类似于服务器的方式工作,把计算出的特征矢量分配给与每个平行分支对应的通道。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】本申请是序列号为09/288,724的美国专利申请(1999年4月9日提交,它被授予本专利技术的受让人并包括在这里作为参考)的部分继续。一般而言,本专利技术涉及声音信息分类系统,更具体而言,涉及转换声音信息和在声音文件中标识说话者的方法和装置。许多组织,如广播新闻组织和信息检索(retrieve)服务部分,为了存储和检索(retrieve)的目的,必须处理大量声音信息。常常是这些声音信息必须按主题或说话者名字或按二者进行分类。为了按主题对声音信息分类,语音识别系统首先把声音信息转换成文本供自动分类或编索引。然后,该索引能被用于完成询问报告匹配(query-document matching)以向使用者返回相关报告。这样,对声音信息的分类过程已基本上成为完全自动的。然而,按说话者对声音信息进行分类的过程往往留下需要大量人力的任务,特别是对于实时应用,如广播新闻。尽管已提出了若干需要大量计算的离线(off-line)技术。利用说话者登录信息根据声音源自动识别说话者,但说话者分类过程最经常的是由操作人员定成,他辨识每次说话者变化并提供相应的说话者辨识结果。本专利技术的父申请说明了基于声音内容(主题)检索(retrieve)声音信息以及辨识说话者的方法和装置。一个编索引系统对声音信息进行转换和编索引以创建有时间标记的内容索引文件和说话者索引文件。所产生的内容索引和说话者索引在其后能用于根据声音内容和说话者标识完成询问报告匹配。需要一种方法和装置,它能实时地从声音源自动转换声音信息并同时辨认说话者。还需要一种装置和方法,它提供改进的说话者分段和基于贝叶斯信息判据(BIC)的集群。一般而言,说明了一种方法和装置,用于从音频-视频源自动转换声音信息同时并发地辨识说话者。所说明的声音转换和说话者分类系统包括一个语音识别系统、一个说话者分段系统和一个说话者辨识系统。根据本专利技术的一个方面,声音信息在一个多线程环境中由语音识别系统、说话者分段系统和说话者辨识系统沿平行分支进行处理。语音识别系统产生一个抄本(transcript),对抄本中的每个词按时间对位。说话者分段系统分开各说话者并识别出存在非同一语音部分之间段边界的所有可能帧(frame)。然后说话者辩识系统使用登录的说话者数据库对每个识别出的段落赋予一个说话者。本专利技术利用公共前端处理来计算特征矢量,这些特征矢量由语音识别系统、说话者分段系统和说话者辨识系统在一多线程环境中沿平行分支进行处理。一般而言,这些特征矢量可以分配给这三个多重处理线程,例如使用类似于服务器方式工作的共享存储器结构把计算出的特征矢量分配到每个通道(对应于每个处理线程)。根据本专利技术的另一方面,来自音频-视频源的声音信息同时地被转换和分段以识别出段边界。一旦由分段系统识别出语音段,说话者辨识系统便把一个说话者标签赋予转换后文本的每个部分。所说明的分段过程,在与转换引擎同样的通过声音数据的路径上识别出存在与说话者变化相对应的段边界的所有可能帧。一帧代表给定时间段上的语音特征。分段过程使用比较两模型的模型选择判据,确定在一给定帧i是否存在一个段边界。第一模型使用单个满协方差高斯分布,假定在一个样本窗(x1,…,xn)内不存在段边界。第二模型使用两个满协方差高斯分布,以(x1,…,xi)取自第一高斯分布,而(xi+1,…,xn)取自第二高斯分布,假定在样本窗(x1,…xn)内存在段边界。所说明的说话者辨识系统使用登录的说话者的数据库,对每个识别出的段赋予一个说话者标签。说话者辨识过程接收由分段过程识别出的转折点,以及由共享前端产生的特征矢量。通常,说话者辨识系统把这段的语调(utlerance)与登录的说话者的数据库进行比较,并找出“最接近的”说话者。为说话者识别系统提供了基于模型方案和基于帧方案。本专利技术的结果能直接输出给使用者,例如提供每段的转换后文本加上赋予的说话者标签。此外,本专利技术的结果还能记录在一个或多个数据库中和由声音检索系统使用,例如在父申请中说明的声音检索系统,它把内容和说话者查询方法的结果结合起来,以提供基于声音内容及说话者标识对声音信息(和间接地对视频)的访问。通过参考下面的详细描述和图件将能得到对本专利技术的更完整的理解和本专利技术的其他特点和优点。附图简述附图说明图1是根据本专利技术构成的声音转换和说话者分类系统的框图;图2是取自图1的有时间标记的词数据库的表;图3是取自图1的说话者转折点数据库的表;图4说明根据本专利技术的有代表性的说话者登录过程;图5是流程图,描述由图1的声音转换和说话者分类系统完成的并发转换、分段和说话者辨识过程的示例;图6是流程图,描述由图1的声音转换和说话者分类系统完成的分段过程的示例;以及图7是流程图,描述由图1的声音转换和说话者分类系统完成的说话者辨识过程的示例。图1显示根据本专利技术构成的声音转换和说话者辨识系统100,它自动转换来自音频-视频源的声音信息同时并发地辩识说话者。音频-视频源文件可以是例如声音记录或来自例如广播新闻节目的实况馈送。音频-视频源首先被转换同时并发地被处理以识别出所有可能的帧,其中存在指示说话者变化的段边界。声音转换和说话者分类系统100包括语音识别系统、说话者分段系统和说话者分类系统。语音识别系统产生抄本,对抄本中的每个词按时间对位。说话者分段系统分开各说话者并识别出存在段边界的所有可能帧。段是与一给定说话者相关联的声音源连续部分。然后说话者辨识系统对每段赋一个说话者标签。图1的框图显示根据本专利技术的一个声音转换和说话者分类系统示例100的结构。声音转换和说话者分类系统100可以作为一个通用计算系统来实现,如图1所示的通用计算系统。声音转换和说话者辨识系统100包括处理器110和相关的存储器,如数据存储装置120,它可以是分布式的或本地的。处理器110可以作为单个处理器实现,或作为平行操作的多个本地或分布式处理器实现。数据存储装置120和/或只读存储器(ROM)可操作以存储一个或多个指令,处理器110可操作以检索、解释和执行这些指令。数据存储装置120最好包括声音大全(corpus)数据库150,用于存储一个或多个预先记录的或实况的音频或视频文件(或二者),它们能根据本专利技术被实时处理。数据存储装置120还存有带时间标记的词数据库200,下文中将结合图2作进一步讨论,它由语音识别系统产生,包括一组带时间标记的词。说话者转折点数据库300,下文中将结合图3作进一步讨论,是由说话者辨识系统结合说话者分段系统一起产生的,它指出每段的起始时间,以及一个或多个相应的建议的说话者标签。说话者数据库420由说话者登录过程410产生,下文中将结合图4讨论,它包括每个登录的说话者的条目。应该指出,一种在线实现可能不需要图1所示实施例中显示的所产生的数据库200和300,在这个在线实现中,本专利技术的结果实时地显示给使用者,不需要用于其后的访问。此外,如将结合图5和图6进一步讨论的那样,数据存储装置120包括一个并发转换、分段和说话者辨识过程500,转换引擎515,分段过程600和说话者辩识过程700。并发转换、分段和说话者辩识过程500协调转换引擎515、分段过程600及说话者辩识过程700的执行。并发转换、分段和说话者辩识过程500分析声音大全数据库150中的一个本文档来自技高网...

【技术保护点】
从一个或多个声音源转换声音信息的方法,所述方法包含以下步骤: 转换所述声音源以建立该声音源的文本版本; 与所述转换步骤基本上并发地在所述声音源中辩识可能的段边界;以及 对每个识别出的段赋予一个说话者标签。

【技术特征摘要】
【国外来华专利技术】US 1999-6-30 09/345,2371.从一个或多个声音源转换声音信息的方法,所述方法包含以下步骤转换所述声音源以建立该声音源的文本版本;与所述转换步骤基本上并发地在所述声音源中辩识可能的段边界;以及对每个识别出的段赋予一个说话者标签。2.权利要求1的方法,这里所述转换步骤产生所述声音源中每个词的有时间对位的转换副本。3.权利要求1的方法,这里所述辩识步骤辩识存在非同一语音部分之间的段边界的所有可能帧。4.权利要求1的方法,这里所述赋予步骤利用登录的说话者数据库将说话者标签赋予每个识别出的段。5.权利要求1的方法,这里所述赋予步骤还包含赋予一评分的步骤,所述评分指出对所述赋予的说话者标签的置信度。6.权利要求1的方法,这里所述赋予步骤还包含对所述赋予的说话者标签再赋予至少一个另一种选择的步骤。7.权利要求1的方法,这里所述转换、辩识和赋予步骤在一个多线程环境中的平行处理分支上进行。8.权利要求1的方法,这里所述辩识步骤使用BIC模型选择判据以辩识段边界。9.从一个或多个声音源转换声音信息的方法,所述方法包含以下步骤由所述声音信息计算特征矢量;以及把所述特征矢量应用于三个平行处理分支,以转换所述声音源以建立该声音源的文本版本;在所述声音源中辩识可能的段边界;以及对每个识别出的段赋予一个说话者标签。10.权利要求9的方法,这里将所述特征矢量应用于使用共享存储器结构的所述平行分支。11.权利要求10的方法,这里所述共享存储器结构把计算出的特征矢量分配给与所述平行处理分支中每一个相对应的一个通道。12.权利要求9的方法,这里所述转换步骤产生所述声音源中每个词的有时间对位的转换付本。13.权利要求9的方法,这里所述辩识步骤辩识存在非同一语音部分之间的段边界的所有可能帧。14.权利要求9的方法,这里所述赋予步骤利用登录的说话者数据库将说话者标签赋予每个识别出的段。15.权利要求9的方法,这里所述赋予步骤还包含赋予一评分的步骤,该评分指出对所述赋予的说话者标签的置信度。16.权利要求9的方法,这里所述赋予步骤还包含对所述赋予的说话者标签再赋予至少一个另一种选择的步骤。17.权利要求9的方法,这里所述辩识步骤使用BIC模型选...

【专利技术属性】
技术研发人员:赫马永萨德莫哈马德贝吉阿兰查尔斯露易斯特里西勒马赫西维斯瓦纳山
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利