用于对话场景的音似纠错方法及装置制造方法及图纸

技术编号：36188858 阅读：11 留言：0更新日期：2022-12-31 20:59

本申请公开了一种用于对话场景的音似纠错方法及装置，方法包括：基于预设语义协议，根据车机对话领域的多个实体构造规则数据；基于预先训练的泛化模型对规则数据进行泛化增强，生成泛化语料；采集车机对话领域的混淆词和近音字符，并按预设比例随机替换泛化语料，构造纠错数据，生成纠错语料；修改语言模型的mask规则，以音似字符代替随机字符进行mask，训练语言模型；基于预先构建的拼音规则表和纠错语料，增加近音噪音训练语言模型，得到偏音似的语言模型，以在对话场景中进行音似纠错。本申请实施例可以通过数据增强的方式训练偏音似文本分布的语言模型，在对话场景中音似纠错，提升了纠错检错的精确度，并且提升了车辆的交互感。互感。互感。

全部详细技术资料下载

【技术实现步骤摘要】
用于对话场景的音似纠错方法及装置

[0001]本申请涉及语言处理
，特别涉及一种用于对话场景的音似纠错方法及装置。

技术介绍

[0002]相关技术中，通过将用户输入的文本先倒入Bert纠错模型进行文本纠错，再将修正过一次的文本导入拼音纠错模型进行二次纠错，之后再将二次纠错后的文本倒入热词替换规则模型进行热词替换，将方言等口语化文本转换为专有名词，再次增强纠错效果。
[0003]然而，相关技术中仅进行语义学习，导致在拼音模型中需要维护大量的同音热词，增加了构建热词的成本，并且拼音特征较为单一，降低了纠错能力，无法满足用户的使用需求，亟待解决。

技术实现思路

[0004]本申请提供一种用于对话场景的音似纠错方法及装置，以解决相关技术中仅进行语义学习，导致在拼音模型中需要维护大量的同音热词，增加了构建热词的成本，并且拼音特征较为单一，降低了纠错能力，无法满足用户的使用需求的技术问题。
[0005]本申请第一方面实施例提供一种用于对话场景的音似纠错方法，包括以下步骤：基于预设语义协议，根据车机对话领域的多个实体构造规则数据；基于预先训练的泛化模型对所述规则数据进行泛化增强，生成泛化语料；采集车机对话领域的混淆词和近音字符，并按预设比例随机替换所述泛化语料，构造纠错数据，生成纠错语料；修改语言模型的mask规则，以音似字符代替随机字符进行mask，训练所述语言模型；基于预先构建的拼音规则表和所述纠错语料，增加近音噪音训练所述语言模型，得到偏音似的语言模型，以在对话场景中进行音似纠错。/>[0006]根据上述技术手段，本申请实施例可以通过数据增强的方式训练更偏音似文本分布的语言模型，可以在对话场景中音似纠错，有效的提升了纠错检错的精确度，并且提升了车辆的交互感，有效的满足用户的使用需求。
[0007]可选地，在本申请的一个实施例中，所述根据车机对话领域的多个实体构造规则数据，包括：将所述多个实体依据所述预设语义协议中的不同意图随机填充到所述预设语义协议的词槽里。
[0008]根据上述技术手段，本申请实施例可以提升结合具体场景纠错的准确性，提升用户的使用体验。
[0009]可选地，在本申请的一个实施例中，所述修改MLM(Masked Language Model，掩码语言模型)模块中的mask规则，以音似字符代替随机字符进行mask，训练所述MLM模块，包括：修改随机其他字符的替换规则，将原词替换为近音词、混淆词，以构造所述mask规则。
[0010]根据上述技术手段，本申请实施例可以通过调整替换比例，并采用音似字替换代替随机替换，为bert增加了音似纠错的能力。
[0011]可选地，在本申请的一个实施例中，所述基于预先构建的拼音规则表和所述纠错语料，增加近音噪音训练所述语言模型，得到偏音似的语言模型，包括：构建所述纠错语料的纠错字符的多维度特征，并构建音似分类机器学习模型，以进行纠错分类。
[0012]根据上述技术手段，本申请实施例可以构建机器学习分类模型，提升纠错检错的精确性。
[0013]本申请第二方面实施例提供一种用于对话场景的音似纠错装置，包括：构造模块，用于基于预设语义协议，根据车机对话领域的多个实体构造规则数据；生成模块，用于基于预先训练的泛化模型对所述规则数据进行泛化增强，生成泛化语料；处理模块，用于采集车机对话领域的混淆词和近音字符，并按预设比例随机替换所述泛化语料，构造纠错数据，生成纠错语料；修改模块，用于修改语言模型的mask规则，以音似字符代替随机字符进行mask，训练所述语言模型；纠错模块，用于基于预先构建的拼音规则表和所述纠错语料，增加近音噪音训练所述语言模型，得到偏音似的语言模型，以在对话场景中进行音似纠错。
[0014]可选地，在本申请的一个实施例中，所述构造模块进一步用于将所述多个实体依据所述预设语义协议中的不同意图随机填充到所述预设语义协议的词槽里。
[0015]可选地，在本申请的一个实施例中，所述修改模块进一步用于修改随机其他字符的替换规则，将原词替换为近音词、混淆词，以构造所述mask规则。
[0016]可选地，在本申请的一个实施例中，所述纠错模块进一步用于构建所述纠错语料的纠错字符的多维度特征，并构建音似分类机器学习模型，以进行纠错分类。
[0017]本申请第三方面实施例提供一种车辆，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的用于对话场景的音似纠错方法。
[0018]本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序被处理器执行时实现如上的用于对话场景的音似纠错方法。
[0019]本申请的有益效果：
[0020](1)本申请实施例可以提升结合具体场景纠错的准确性，提升用户的使用体验。
[0021](2)本申请实施例可以通过调整替换比例，并采用音似字替换代替随机替换，为bert增加了音似纠错的能力。
[0022](3)本申请实施例通可以通过数据增强的方式训练更偏音似文本分布的语言模型，可以在对话场景中音似纠错，有效的提升了纠错检错的精确度，并且提升了车辆的交互感，有效的满足用户的使用需求。
[0023]本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。
附图说明
[0024]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
[0025]图1为根据本申请实施例提供的一种用于对话场景的音似纠错方法的流程图；
[0026]图2为本申请一个具体实施例的语义协议说明的示意图；
[0027]图3为本申请一个具体实施例的Mask替换示意图；
[0028]图4为本申请一个具体实施例的拼音拼读表的示意图；
[0029]图5为本申请一个具体实施例的数据构造阶段流程图；
[0030]图6为本申请一个具体实施例的Bert语言模型构建流程图；
[0031]图7为本申请一个具体实施例的拼音分类模型构建流程图；
[0032]图8为本申请一个具体实施例的用于对话场景的音似纠错方法的总体流程图；
[0033]图9为根据本申请实施例的用于对话场景的音似纠错装置的结构示意图；
[0034]图10为根据本申请实施例提供的车辆的结构示意图。
[0035]其中，10
‑
用于对话场景的音似纠错装置；100
‑
构造模块、200
‑
生成模块、300
‑
处理模块、400
‑
修改模块和500
‑
纠错模块；1001
‑
存储器、1002
‑
处理器和1003
‑
通信接口。
具体实施方式
[0036]下面详细描述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于对话场景的音似纠错方法，其特征在于，包括以下步骤：基于预设语义协议，根据车机对话领域的多个实体构造规则数据；基于预先训练的泛化模型对所述规则数据进行泛化增强，生成泛化语料；采集车机对话领域的混淆词和近音字符，并按预设比例随机替换所述泛化语料，构造纠错数据，生成纠错语料；修改语言模型的mask规则，以音似字符代替随机字符进行mask，训练所述语言模型；以及基于预先构建的拼音规则表和所述纠错语料，增加近音噪音训练所述语言模型，得到偏音似的语言模型，以在对话场景中进行音似纠错。2.根据权利要求1所述的方法，其特征在于，所述根据车机对话领域的多个实体构造规则数据，包括：将所述多个实体依据所述预设语义协议中的不同意图随机填充到所述预设语义协议的词槽里。3.根据权利要求1所述的方法，其特征在于，所述修改掩码语言模型MLM模块中的mask规则，以音似字符代替随机字符进行mask，训练所述MLM模块，包括：修改随机其他字符的替换规则，将原词替换为近音词、混淆词，以构造所述mask规则。4.根据权利要求1所述的方法，其特征在于，所述基于预先构建的拼音规则表和所述纠错语料，增加近音噪音训练所述语言模型，得到偏音似的语言模型，包括：构建所述纠错语料的纠错字符的多维度特征，并构建音似分类机器学习模型，以进行纠错分类。5.一种用于对话场景的音似纠错装置，其特征在于，包括：构造模块，用于基于预设语义协议，根据车机对话领域的多个实体构造规则数据；生成模块，用于基于...

【专利技术属性】
技术研发人员：张洪健，刘大全，谭瑞，
申请(专利权)人：重庆长安汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人