多音字消歧方法及装置制造方法及图纸

技术编号：27879211 阅读：19 留言：0更新日期：2021-03-31 01:08

本发明专利技术提供了一种多音字消歧方法及装置，该方法包括：获取包含多音字的待检测语句文本数据；根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型；根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。能够将待检测语句文本数据与多音字的候选读音逐一匹配，相较于分类的方法，能够提升在非常规发音上的识别准确率。将全部多音字以及对应的读音数据导入，即使文本匹配模型未见过的罕见读音，也能够准确识别。

全部详细技术资料下载

【技术实现步骤摘要】
多音字消歧方法及装置
本专利技术涉及语音识别领域，尤其涉及一种多音字消歧方法及装置。
技术介绍
在语音识别系统中，字音转换是必不可少的模块之一，其准确率直接影响识别出的语音的可懂性。在普通话语音合成系统中，字音转换任务就是将文字序列转换为对应的拼音序列。大多数情况下，字音转换都是在词典中检索当前词，配以对应的拼音。然而，普通话中有的字对应多个拼音。如“好”字，在“好成绩”中读“hao(3声)”，在“好客”中读“hao(4声)”。字音转换的关键和难点就是如何解决这种一字多音的问题。在普通话中常见的多音字约200个，每个多音字有常规发音和非常规发音，为了将语音数据中的多音字确定为正确的文字，需要进行多音字消歧，其中，多音字消歧是指在语音合成系统中，将数据中的多音字预测为正确的拼音序列。现有技术进行多音字消歧时，采用的是基于分类方法的模型，但在真实场景中，多音字的发音是非常不平衡的，例如表1中展示的发音分布统计情况：由于非常规发音数据的数量远远少于常规发音数据，利用基于分类方法的模型在非常规发音这种小样本数据中性能表现较差，且对于模型未见过的数据集外的读音数据，例如在真实场景中，多音字存在罕见发音，训练语料中有可能无法覆盖。如发音为“zhe1声”的“折”字，基于分类方法的模型无法识别。因此，现有的多音字消歧方法对多音字识别准确率低。
技术实现思路
本专利技术实施例提供一种多音字消歧方法，用以提高对多音字的识别准确率，该方法包括：获取包含多音字的待检测语句文本数据；...

【技术保护点】
1.一种多音字消歧方法，其特征在于，包括：/n获取包含多音字的待检测语句文本数据；/n根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；所述四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；/n根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；/n将待检测语句文本数据和所述候选读音数据集合结合后，输入文本匹配模型；其中，所述文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；/n根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。/n

【技术特征摘要】
1.一种多音字消歧方法，其特征在于，包括：
获取包含多音字的待检测语句文本数据；
根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；所述四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；
根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；
将待检测语句文本数据和所述候选读音数据集合结合后，输入文本匹配模型；其中，所述文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；
根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。

2.如权利要求1所述的方法，其特征在于，每个多音字对应的四级字词表，包括：
每个多音字的文本、每个多音字的不同读音、每个多音字不同读音对应的释义信息以及每个多音字不同读音对应的常用词组。

3.如权利要求2所述的方法，其特征在于，还包括：
迭代执行以下步骤，直至文本匹配模型的输出效率和/或输出结果的准确率满足预设要求或迭代次数超过预设值：
根据文本匹配模型的输出效率和/或输出结果的准确率，对所述四级多音字词表进行更新；
利用更新后的四级多音字词表，重新得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；
根据新得到的候选读音数据集合，重新确定文本匹配模型的输出结果。

4.如权利要求3所述的方法，其特征在于，根据文本匹配模型的输出效率和/或输出结果的准确率，对所述四级多音字词表进行更新，包括：
根据文本匹配模型的文本匹配模型的输出效率和/或输出结果的准确率，在所述四级多音字词表中对每个多音字不同读音对应的释义信息以及每个多音字不同读音对应的常用词组，进行调整、增加或删除。

5.如权利要求2所述的方法，其特征在于，根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合，包括：
根据待检测语句文本数据所包含的多音字对应的四级字词表，确定待检测语句文本数据所包含的多音字对应的多个候选读音及每个候选读音对应的释义信息和常用词组；
根据待检测语句文本数据所包含的多音字对应的多个候选读音及每个候选读音对应的释义信息和常用词组，确定每个候选读音数据子集；
合并多个候选读音数据子集，得到所述候选读音数据集合。

6.如权利要求5所述的方法，其特征在于，将待检测语句文本数据和所述候选读音数据集合结合后，输入文本匹配模型，包括：
将待检测语句文本数据和每个候选读音数据子集逐一进行拼接后，输入文本匹配模型。

7.如权利要求1所述的方法，其特征在于，所述文本匹配模型的建立过程，包括：
获取多个训练数据和多个训练数据对应的正确读音；所述训练数据包括：包含多音字的语句文本数据和所包含多音字对应的多个候选读音数据集合；
根据每个训练数据对应的正确读音，确定语句文本数据和每个候选读音数据集合之间的适配度；
以训练数据为BERT模型的输入，语句文本数据和每个候选读音数据集合之间的适配度为BERT模型的输出，进行深度机器学习构建文本匹配模型。

8.如权利要求7所述的方法，其特征在于，还包括：
将多个训练数据输入构建的文本匹配模型中，得到多个训练数据对应的文本匹配模型输出结果；
根据多个训练数据对应的正确读音和多个训练数据对应的文本匹配模型输出结果，对构建的文本匹配模型进行调整。

9.如权利要求1所述的方法，其特征在于，根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音，包括：
对文本匹配模型的输出的待检测语句文本数据与多音字的每个候选读音之间的适配度进行排序；
将排序最靠前的候选读音确定为待检测语句文本数据中所包含的多音字的读音。

10.一种多音字消歧装置，其特征在于，包括：
数据获取模块，用于获取包含多音字的待检测语句文本数据；
四级字词表确定模块，用于根据待检测语句文本数据，在预先构...

【专利技术属性】
技术研发人员：庞帅，袁晟君，李宸，杨辰雨，庄磊，
申请(专利权)人：建信金融科技有限责任公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人