语音识别文本的纠错方法和装置制造方法及图纸

技术编号:11191608 阅读:144 留言:0更新日期:2015-03-25 20:14
本发明专利技术实施例公开了一种语音识别文本的纠错方法和装置。所述语音识别文本的纠错方法包括:根据语音识别的结果文本的多层次K-Gram索引,拉取用于对所述结果文本进行纠错的至少一个候选纠错文本,确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵,根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界,根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本,并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。本发明专利技术实施例提供的语音识别文本的纠错方法和装置实现了对语音识别结果文本的准确纠错。

【技术实现步骤摘要】
语音识别文本的纠错方法和装置
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别文本的纠错方法和 装置。
技术介绍
随着语音识别技术的日臻成熟,语音识别的应用领域也越来越广泛。相对于其他 的文本输入方式,语音识别所实现的语音输入方式更为符合人们的日常习惯,也使得输入 过程更为高效。可以预计,语音识别技术将广泛应用于工业生产、通信、医疗、家政服务等多 个领域。 在语音识别技术的实际应用中,由于周围噪音、方言等因素的影响,语音识别的识 别结果往往与用户的输入不一致。尤其在日常口语场景下,语音识别的识别错误更为普遍。 而现有技术中缺乏对识别错误的纠错手段,因而影响了语音识别技术的进一步推广。
技术实现思路
有鉴于此,本专利技术实施例提出一种语音识别文本的纠错方法和装置,以对语音识 别的结果文本进行准确的纠错。 第一方面,本专利技术实施例提供了一种语音识别文本的纠错方法,所述方法包括: 根据语音识别的结果文本的多层次K-Gram索引,拉取用于对所述结果文本进行 纠错的至少一个候选纠错文本; 确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩 阵; 根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结 果文本之间的模糊音编辑距离及候选纠错边界; 根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本,并根 据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。 第二方面,本专利技术实施例还提供了一种语音识别文本的纠错装置,所述装置包 括: 纠错文本拉取模块,用于根据语音识别的结果文本的多层次K-Gram索引,拉取用 于对所述结果文本进行纠错的至少一个候选纠错文本; 编辑距离矩阵计算模块,用于确定所述至少一个候选纠错文本分别与所述结果文 本之间的模糊音编辑距离矩阵; 路径回溯模块,用于根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错 文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界; 纠错模块,用于根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取 纠错文本,并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。 本专利技术实施例提供的语音识别文本的纠错方法和装置,通过根据语音识别的结果 文本的多层次K-Gram索引,拉取用于对所述结果文本进行纠错的至少一个候选纠错文本, 确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵,根据确 定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模 糊音编辑距离及候选纠错边界,根据所述至少一个候选纠错文本分别对应的模糊音编辑距 离选取纠错文本,并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错, 从而实现了对语音识别的结果文本的准确纠错。 【附图说明】 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它 特征、目的和优点将会变得更明显: 图1是本专利技术第一实施例提供的语音识别文本的纠错方法的流程图; 图2是本专利技术第二实施例提供的语音识别文本的纠错方法的流程图; 图3是本专利技术第二实施例提供的语音识别文本的纠错方法中编辑距离矩阵计算 的流程图; 图4是本专利技术第二实施例提供的语音识别文本的纠错方法中路径回溯的流程图; 图5是本专利技术第三实施例提供的语音识别文本的纠错方法的流程图; 图6是本专利技术第三实施例提供的语音识别文本的纠错方法中纠错文本拉取的流 程图; 图7是本专利技术第三实施例提供的语音识别文本的纠错方法中编辑距离矩阵计算 的流程图; 图8是本专利技术第三实施例提供的语音识别文本的纠错方法中路径回溯的流程图; 图9是本专利技术第四实施例提供的语音识别文本的纠错方法的流程图; 图10是本专利技术第五实施例提供的语音识别文本的纠错方法中纠错的流程图; 图11是本专利技术第六实施例提供的语音识别文本的纠错装置的结构图。 【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于 描述,附图中仅示出了与本专利技术相关的部分而非全部内容。 第一实施例 图1是本专利技术第一实施例提供的语音识别文本的纠错方法的流程图。参见图1,所 述语音识别文本的纠错方法包括: S110,根据语音识别的结果文本的多层次K-Gram索引,拉取用于对所述结果文本 进行纠错的至少一个候选纠错文本。 在对所述语音识别的结果文本进行纠错之前,首先建立所述结果文本的多层次 K-Gram索引。在建立所述结果文本的多层次K-Gram索引之后,根据所述多层次K-Gram索 弓丨,从预置的语料库中拉取与所述结果文本最为相似的候选纠错文本。 具体的,所述多层次K-Gram索引包括汉字层次的K-Gram索引、拼音音节层次的 K-Gram索引、全拼或简拼层次的K-Gram索引、声母韵母层次的K-Gram索引中的任意一个。 所述汉字层次的K-Gram索引是以所述结果文本中的汉字为组成K-Gram索引的元 素而建立的K-Gram索引。所述拼音音节层次的K-Gram索引是以所述结果文本中汉字对应 的拼音音节组成K-Gram索引的元素而建立的K-Gram索引。所述全拼或简拼层次的K-Gram 索引是获取所述结果文本中汉字对应的全拼或简拼,并以所述全拼或简拼为组成K-Gram 索引的元素而建立的K-Gram索引。所述声母韵母层次的K-Gram索引是从所述结果文本中 汉字对应的全拼中区分出声母和韵母,并以区分出的声母和韵母为组成K-Gram索引的元 素而建立的K-Gram索引。 拉取的候选纠错文本是用于从中选取对所述结果文本进行纠错的纠错文本的备 选文本。为了能够更为准确的对所述结果文本进行纠错,在拉取候选纠错文本时,拉取的候 选纠错文本的数量应该为至少一个。 S120,确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距 离矩阵。 确定了至少一个候选纠错文本之后,确定每个候选纠错文本与所述结果文本之间 的模糊音编辑距离矩阵。 编辑距离是指两个字符串之间,由一个字符串转换成另外一个字符串所需的最少 的编辑操作次数。其中,所述编辑操作包括替换操作、插入操作以及删除操作。所述替换操 作是指利用一个字符替换另一个字符;所述插入操作是指在字符串中插入一个原来没有的 字符;所述删除操作是指从字符串中删掉一个原有的字符。 编辑距离矩阵是一种用于计算两个字符串之间的编辑距离的矩阵。表1示出了字 符串kitten与字符串sitting之间的编辑距离矩阵。 表 1本文档来自技高网...
语音识别文本的纠错方法和装置

【技术保护点】
一种语音识别文本的纠错方法,其特征在于,包括:根据语音识别的结果文本的多层次K‑Gram索引,拉取用于对所述结果文本进行纠错的至少一个候选纠错文本;确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵;根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离及候选纠错边界;根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本,并根据所述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。

【技术特征摘要】
1. 一种语音识别文本的纠错方法,其特征在于,包括: 根据语音识别的结果文本的多层次K-Gram索引,拉取用于对所述结果文本进行纠错 的至少一个候选纠错文本. 确定所述至少一个候选纠错文本分别与所述结果文本之间的模糊音编辑距离矩阵; 根据确定的模糊音编辑距离矩阵获取所述至少一个候选纠错文本分别与所述结果文 本之间的模糊音编辑距离及候选纠错边界; 根据所述至少一个候选纠错文本分别对应的模糊音编辑距离选取纠错文本,并根据所 述纠错文本所对应的候选纠错边界对所述结果文本进行纠错。2. 根据权利要求1所述的方法,其特征在于,根据语音识别的结果文本的多层次 K-Gram索引,拉取用于对所述结果文本进行纠错的至少一个候选纠错文本包括: 根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引,拉 取用于对所述结果文本进行纠错的至少一个非模板候选纠错文本。3. 根据权利要求2所述的方法,其特征在于,确定所述至少一个候选纠错文本分别与 所述结果文本之间的模糊音编辑距离矩阵包括: 对于拉取到的每个非模板候选纠错文本,将初始化的模糊音编辑距离矩阵中替换操作 对应元素的取值,设置为所述元素所对应的当前非模板候选纠错文本中的字符与所述元素 所对应的结果文本中的字符之间的模糊音相似度; 根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值,得 到当前非模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。4. 根据权利要求2所述的方法,其特征在于,获取所述至少一个候选纠错文本分别与 所述结果文本之间的模糊音编辑距离及候选纠错边界包括: 对于确定的每个模糊音编辑距离矩阵,通过路径回溯获取当前模糊音编辑距离矩阵的 模糊音编辑距离及对应的候选纠错边界; 将当前模糊音编辑距离矩阵的模糊音编辑距离及对应的候选纠错边界,作为当前模糊 音编辑距离矩阵对应的非模板候选纠错文本与所述结果文本之间的模糊音编辑距离及候 选纠错边界。5. 根据权利要求1所述的方法,其特征在于,根据语音识别的结果文本的多层次 K-Gram索引,拉取用于对所述结果文本进行纠错的至少一个候选纠错文本包括: 根据汉字层次、拼音音节层次、全拼或简拼层次或者声母韵母层次的K-Gram索引,拉 取用于对所述结果文本进行纠错的至少一个候选纠错文本; 识别每个候选纠错文本中包含的专有名词,并使用通配符替换所述专有名词,W得到 至少一个模板候选纠错文本。6. 根据权利要求5所述的方法,其特征在于,确定所述至少一个候选纠错文本分别与 所述结果文本之间的模糊音编辑距离矩阵包括: 对于拉取到的每个模板候选纠错文本,将初始化的模糊音编辑距离矩阵中替换操作对 应元素的取值,设置为所述元素所对应的当前模板候选纠错文本中的字符与所述元素所对 应的结果文本中的字符之间的模糊音相似度; 根据动态规划算法确定所述模糊音编辑距离矩阵中的非替换操作对应元素的取值,得 到当前模板候选纠错文本与所述结果文本之间的模糊音编辑距离矩阵。7. 根据权利要求5所述的方法,其特征在于,获取所述至少一个候选纠错文本分别与 所述结果文本之间的模糊音编辑距离及候选纠错边界包括: 对于确定的每个模糊音编辑距离矩阵,通过路径回溯获取当前模糊音编辑距离矩阵的 模糊音编辑距离及对应的候选纠错边界; 确定当前模糊音编辑距离矩阵的模糊音编辑距离,与当前模糊音编辑距离矩阵对应的 模板候选纠错文本中的通配符所对应的编辑距离之间的差值; 将所述差值作为当前模糊音编辑距离矩阵对应的模板候选纠错文本与所述结果文本 之间的模糊音编辑距离。8. 根据权利要求1所述的方法,其特征在于,在拉取用于对所述结果文本进行纠错的 至少一个候选纠错文本之后,确定所述至少一个候选纠错文本分别与所述结果文本之间的 模糊音编辑距离矩阵之前,还包括: 根据用户的所在地点或者经常经过地点,对所述至少一个候选纠错文本进行筛选,W 筛选出与用户相关的至少一个地名性候选纠错文本。9. 根据权利要求1所述的方法,其特征在于,根据所述至少一个候选纠错文本分别对 应的模糊音编辑距离选取纠错文本包括: 若所述至少一个候选纠错文本的个数大于一个,则选择所述至少一个候选纠错文本中 模糊音编辑距离最小的一个作为纠错文本; 若所述至少一个候选纠错文本的个数为一个,则依据预先设定的模糊音编辑距离阔值 和该候选纠错文本的模糊音编辑距离的大小关系,判断是否将所述候选纠错文本作为纠错 文本。10. -种语音识...

【专利技术属性】
技术研发人员:时迎超周晓张海雷
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1