融合多源特征的合同文本纠错方法、系统、设备及介质技术方案

技术编号：35878981 阅读：26 留言：0更新日期：2022-12-07 11:17

本发明专利技术涉及人工智能技术领域，尤其涉及一种融合多源特征的合同文本纠错方法、系统、设备及介质。该方法将待识别文本的字向量、位置向量、拼音向量和字形向量相加后，输入编码模型中得到融合特征，将融合特征输入字预测模型中，得到每个字所在位置对应的概率序列，针对任一字，从概率序列中筛选出概率值最大的前K个预设字，在该字与前K个预设字均不相同时，确定该字所在位置为纠错位置，采用概率序列中概率值最大的预设字替换该字，得到纠错文本，以拼音向量和字形向量作为额外信息参与特征融合，提高了融合特征的表征能力，采用预设字与当前字比对的方式确定纠错位置，避免非错误字被误识别，导致过度纠正，进而提高了合同文本识别的准确率。识别的准确率。识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
融合多源特征的合同文本纠错方法、系统、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种融合多源特征的合同文本纠错方法、系统、设备及介质。

技术介绍

[0002]随着人工智能技术的迅速发展，文本纠错作为典型的人工智能应用已逐渐部署于智能搜索、语音交互、合同审查等场景，现有文本纠错技术通常采用统计语言模型进行文本纠错，能够高效地实现文本纠错，但文本纠错的准确率较低，因此，为了提高文本纠错的准确率，有方法提出采用端到端的深度学习模型进行文本纠错。
[0003]但是，端到端的深度学习模型通常是基于通用领域训练集训练得到的，在专业术语、专有名词较多的合同审查场景下，会将专业术语等过度纠正为常见术语，导致合同文本纠错的准确率较低。因此，如何提高合同文本纠错的准确率成为了亟待解决的问题。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供了一种融合多源特征的合同文本纠错方法、系统、设备及介质，以解决合同文本纠错的准确率较低的问题。
[0005]第一方面，本专利技术实施例提供一种融合多源特征的合同文本纠错方法，所述合同文本纠错方法包括：提取待识别文本中每个字的字向量、位置向量、拼音向量和字形向量，将所述字向量、所述位置向量、所述拼音向量和所述字形向量相加后输入训练好的编码模型中进行特征提取，得到融合特征；将所述融合特征输入训练好的字预测模型中，得到每个字所在位置对应的概率序列，所述概率序列包括至少两个预设字及其对应的概率值；针对任一字，从对应所述字所在位置的概率序列中筛选出概...

【技术保护点】

【技术特征摘要】
1.一种融合多源特征的合同文本纠错方法，其特征在于，所述合同文本纠错方法包括：提取待识别文本中每个字的字向量、位置向量、拼音向量和字形向量，将所述字向量、所述位置向量、所述拼音向量和所述字形向量相加后输入训练好的编码模型中进行特征提取，得到融合特征；将所述融合特征输入训练好的字预测模型中，得到每个字所在位置对应的概率序列，所述概率序列包括至少两个预设字及其对应的概率值；针对任一字，从对应所述字所在位置的概率序列中筛选出概率值最大的前K个预设字，K为小于预设字的数量且大于零的整数；在检测到所述字与所述前K个预设字均不相同时，确定所述字所在位置为纠错位置，采用所述概率序列中概率值最大的预设字替换所述字，得到纠错文本。2.根据权利要求1所述的合同文本纠错方法，其特征在于，所述提取待识别文本中每个字的拼音向量包括：针对所述待识别文本中的任一字，将对应所述字的拼音按照字母拆分，得到至少一个拼音字母；将所述拼音字母输入训练好的字母向量嵌入模型，得到对应拼音字母的字母子向量；在所述拼音拆分为一个拼音字母时，确定所述拼音字母对应的字母子向量为对应所述拼音的拼音子向量；在所述拼音拆分为至少两个拼音字母时，将每个拼音字母对应的字母子向量线性相加，确定相加结果为对应所述拼音的拼音子向量；将所有字的拼音子向量按照文本顺序拼接，确定拼接结果为所述拼音向量。3.根据权利要求1所述的合同文本纠错方法，其特征在于，所述提取待识别文本中每个字的字形向量包括：针对所述待识别文本中的任一字，将所述字按照笔画进行切分，得到至少一个切分笔画；将所述切分笔画输入训练好的笔画向量嵌入模型，得到对应所述切分笔画的笔画子向量；在所述字切分为一个切分笔画时，确定所述切分笔画对应的笔画子向量为对应所述字的字形子向量；在所述字切分为至少两个切分笔画时，将每个切分笔画对应的笔画子向量线性相加，确定相加结果为对应所述字的字形子向量；将所有字的字形子向量按照文本顺序拼接，确定拼接结果为所述字形向量。4.根据权利要求1所述的合同文本纠错方法，其特征在于，所述训练好的编码模型包括训练好的注意力层和训练好的残差连接层；所述将所述字向量、所述位置向量、所述拼音向量和所述字形向量相加后输入训练好的编码模型中进行特征提取，得到融合特征包括：确定所述字向量、所述位置向量、所述拼音向量和所述字形向量的相加结果为输入向量，将所述输入向量输入所述训练好的注意力层，得到查询向量、键值向量和值向量；将所述查询向量、所述键值向量和所述值向量代入预设的自注意力函数计算，确定计算结果为加权向量；
将所述输入向量和所述加权向量输入所述训练好的残差连接层，得到所述融合特征。5.根据权利要求1至4任一项所述的合同文本纠错方法，其特征在于，所述编码模型和所述字预测模型的训练过程包括：按照预设条件从获取的历史文本中选择待处理字，对所述待处理字进行掩码处理，得到掩码字，确定包含掩码字的历史文本为样本文本，提取所述样本文本的样本字向量、样本位置向量、样本拼音向量和样本字形向量；将所述样本字向量、所述样本位置向量、所述样本拼音向量和所述样本字形向量相加后输入所述编码模型，得到样本融合特征；将所述样本融合特征输入所述字预测模型中，得到所述待处理字所在位置的样本概率序列...

【专利技术属性】
技术研发人员：王加伟，杜向阳，
申请(专利权)人：深圳擎盾信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人