融合多源特征的合同文本纠错方法、系统、设备及介质技术方案

技术编号:35878981 阅读:15 留言:0更新日期:2022-12-07 11:17
本发明专利技术涉及人工智能技术领域,尤其涉及一种融合多源特征的合同文本纠错方法、系统、设备及介质。该方法将待识别文本的字向量、位置向量、拼音向量和字形向量相加后,输入编码模型中得到融合特征,将融合特征输入字预测模型中,得到每个字所在位置对应的概率序列,针对任一字,从概率序列中筛选出概率值最大的前K个预设字,在该字与前K个预设字均不相同时,确定该字所在位置为纠错位置,采用概率序列中概率值最大的预设字替换该字,得到纠错文本,以拼音向量和字形向量作为额外信息参与特征融合,提高了融合特征的表征能力,采用预设字与当前字比对的方式确定纠错位置,避免非错误字被误识别,导致过度纠正,进而提高了合同文本识别的准确率。识别的准确率。识别的准确率。

【技术实现步骤摘要】
融合多源特征的合同文本纠错方法、系统、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种融合多源特征的合同文本纠错方法、系统、设备及介质。

技术介绍

[0002]随着人工智能技术的迅速发展,文本纠错作为典型的人工智能应用已逐渐部署于智能搜索、语音交互、合同审查等场景,现有文本纠错技术通常采用统计语言模型进行文本纠错,能够高效地实现文本纠错,但文本纠错的准确率较低,因此,为了提高文本纠错的准确率,有方法提出采用端到端的深度学习模型进行文本纠错。
[0003]但是,端到端的深度学习模型通常是基于通用领域训练集训练得到的,在专业术语、专有名词较多的合同审查场景下,会将专业术语等过度纠正为常见术语,导致合同文本纠错的准确率较低。因此,如何提高合同文本纠错的准确率成为了亟待解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种融合多源特征的合同文本纠错方法、系统、设备及介质,以解决合同文本纠错的准确率较低的问题。
[0005]第一方面,本专利技术实施例提供一种融合多源特征的合同文本纠错方法,所述合同文本纠错方法包括:提取待识别文本中每个字的字向量、位置向量、拼音向量和字形向量,将所述字向量、所述位置向量、所述拼音向量和所述字形向量相加后输入训练好的编码模型中进行特征提取,得到融合特征;将所述融合特征输入训练好的字预测模型中,得到每个字所在位置对应的概率序列,所述概率序列包括至少两个预设字及其对应的概率值;针对任一字,从对应所述字所在位置的概率序列中筛选出概率值最大的前K个预设字,K为小于预设字的数量且大于零的整数;在检测到所述字与所述前K个预设字均不相同时,确定所述字所在位置为纠错位置,采用所述概率序列中概率值最大的预设字替换所述字,得到纠错文本。
[0006]第二方面,本专利技术实施例提供一种融合多源特征的合同文本纠错系统,所述合同文本纠错系统包括:特征融合模块,用于提取待识别文本中每个字的字向量、位置向量、拼音向量和字形向量,将所述字向量、所述位置向量、所述拼音向量和所述字形向量相加后输入训练好的编码模型中进行特征提取,得到融合特征;文本预测模块,用于将所述融合特征输入训练好的字预测模型中,得到每个字所在位置对应的概率序列,所述概率序列包括至少两个预设字及其对应的概率值;字典筛选模块,用于针对任一字,从对应所述字所在位置的概率序列中筛选出概率值最大的前K个预设字,K为小于预设字的数量且大于零的整数;
文本纠错模块,用于在检测到所述字与所述前K个预设字均不相同时,确定所述字所在位置为纠错位置,采用所述概率序列中概率值最大的预设字替换所述字,得到纠错文本。
[0007]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的融合多源特征的合同文本纠错方法。
[0008]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的融合多源特征的合同文本纠错方法。
[0009]本专利技术实施例与现有技术相比存在的有益效果是:提取待识别文本中每个字的字向量、位置向量、拼音向量和字形向量,将字向量、位置向量、拼音向量和字形向量相加后输入训练好的编码模型中进行特征提取,得到融合特征,将融合特征输入训练好的字预测模型中,得到每个字所在位置对应的概率序列,概率序列包括至少两个预设字及其对应的概率值,针对任一字,从对应字所在位置的概率序列中筛选出概率值最大的前K个预设字,在检测到字与前K个预设字均不相同时,确定字所在位置为纠错位置,采用概率序列中概率值最大的预设字替换字,得到纠错文本,提取待识别文本的拼音向量和字形向量作为额外信息参与特征融合,提高了融合特征的信息表征能力,从而提高了基于融合特征进行字预测的准确率,而且,采用前K个预设字与当前字比对的方式确定是否将当前字所在位置作为纠错位置,避免非错误的生僻字被误识别,导致过度纠正,进而提高了合同文本识别的准确率。
附图说明
[0010]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本专利技术实施例一提供的一种融合多源特征的合同文本纠错方法的一应用环境示意图;图2是本专利技术实施例一提供的一种融合多源特征的合同文本纠错方法的流程示意图;图3是本专利技术实施例二提供的一种融合多源特征的合同文本纠错方法的流程示意图;图4是本专利技术实施例三提供的一种融合多源特征的合同文本纠错系统的结构示意图;图5是本专利技术实施例四提供的一种计算机设备的结构示意图。
具体实施方式
[0012]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体
细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。
[0013]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0014]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0015]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0016]另外,在本专利技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0017]在本专利技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本专利技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0018]本专利技术实施例可以基于人工智能技术对相关的数据进行获取和处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多源特征的合同文本纠错方法,其特征在于,所述合同文本纠错方法包括:提取待识别文本中每个字的字向量、位置向量、拼音向量和字形向量,将所述字向量、所述位置向量、所述拼音向量和所述字形向量相加后输入训练好的编码模型中进行特征提取,得到融合特征;将所述融合特征输入训练好的字预测模型中,得到每个字所在位置对应的概率序列,所述概率序列包括至少两个预设字及其对应的概率值;针对任一字,从对应所述字所在位置的概率序列中筛选出概率值最大的前K个预设字,K为小于预设字的数量且大于零的整数;在检测到所述字与所述前K个预设字均不相同时,确定所述字所在位置为纠错位置,采用所述概率序列中概率值最大的预设字替换所述字,得到纠错文本。2.根据权利要求1所述的合同文本纠错方法,其特征在于,所述提取待识别文本中每个字的拼音向量包括:针对所述待识别文本中的任一字,将对应所述字的拼音按照字母拆分,得到至少一个拼音字母;将所述拼音字母输入训练好的字母向量嵌入模型,得到对应拼音字母的字母子向量;在所述拼音拆分为一个拼音字母时,确定所述拼音字母对应的字母子向量为对应所述拼音的拼音子向量;在所述拼音拆分为至少两个拼音字母时,将每个拼音字母对应的字母子向量线性相加,确定相加结果为对应所述拼音的拼音子向量;将所有字的拼音子向量按照文本顺序拼接,确定拼接结果为所述拼音向量。3.根据权利要求1所述的合同文本纠错方法,其特征在于, 所述提取待识别文本中每个字的字形向量包括:针对所述待识别文本中的任一字,将所述字按照笔画进行切分,得到至少一个切分笔画;将所述切分笔画输入训练好的笔画向量嵌入模型,得到对应所述切分笔画的笔画子向量;在所述字切分为一个切分笔画时,确定所述切分笔画对应的笔画子向量为对应所述字的字形子向量;在所述字切分为至少两个切分笔画时,将每个切分笔画对应的笔画子向量线性相加,确定相加结果为对应所述字的字形子向量;将所有字的字形子向量按照文本顺序拼接,确定拼接结果为所述字形向量。4.根据权利要求1所述的合同文本纠错方法,其特征在于,所述训练好的编码模型包括训练好的注意力层和训练好的残差连接层;所述将所述字向量、所述位置向量、所述拼音向量和所述字形向量相加后输入训练好的编码模型中进行特征提取,得到融合特征包括:确定所述字向量、所述位置向量、所述拼音向量和所述字形向量的相加结果为输入向量,将所述输入向量输入所述训练好的注意力层,得到查询向量、键值向量和值向量;将所述查询向量、所述键值向量和所述值向量代入预设的自注意力函数计算,确定计算结果为加权向量;
将所述输入向量和所述加权向量输入所述训练好的残差连接层,得到所述融合特征。5.根据权利要求1至4任一项所述的合同文本纠错方法,其特征在于,所述编码模型和所述字预测模型的训练过程包括:按照预设条件从获取的历史文本中选择待处理字,对所述待处理字进行掩码处理,得到掩码字,确定包含掩码字的历史文本为样本文本,提取所述样本文本的样本字向量、样本位置向量、样本拼音向量和样本字形向量;将所述样本字向量、所述样本位置向量、所述样本拼音向量和所述样本字形向量相加后输入所述编码模型,得到样本融合特征;将所述样本融合特征输入所述字预测模型中,得到所述待处理字所在位置的样本概率序列...

【专利技术属性】
技术研发人员:王加伟杜向阳
申请(专利权)人:深圳擎盾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1