人名纠正方法、装置、电子设备和存储介质制造方法及图纸

技术编号:31982087 阅读:19 留言:0更新日期:2022-01-20 01:39
本发明专利技术提供一种人名纠正方法、装置、电子设备和存储介质,所述方法包括:确定待纠错文本中的错误人名,以及错误人名对应的候选人名;将待纠错文本中的错误人名替换为候选人名,得到候选文本;基于候选文本与候选人名间的语义相似度、待纠错文本的人名预测结果与候选人名间的相似度,以及待纠错文本的人名预测位置与候选人名的位置间的一致性,确定待纠错文本的人名纠正结果。本发明专利技术提供的人名纠正方法、装置、电子设备和存储介质,能够进一步提高人名纠正结果精度。人名纠正结果精度。人名纠正结果精度。

【技术实现步骤摘要】
人名纠正方法、装置、电子设备和存储介质


[0001]本专利技术涉及文本识别
,尤其涉及一种人名纠正方法、装置、电子设备和存储介质。

技术介绍

[0002]随着信息技术的发展,各类电子数据在不断增加,由于文本拼写等错误导致对文本中的人名识别错误成为自然语言理解中需要解决的一个重要问题。
[0003]现有的人名纠正方法,通常是先对待纠错文本进行实体识别,得到待纠错文本中的人名信息,然后对人名信息与目标人名进行拼音相似度计算,并根据计算结果判断是否对待纠错文本中的人名信息进行纠正。然而,若人名信息中的错误字符的拼音与目标人名的拼音相同或近似,则会造成误判,影响纠正结果的精度,如人名信息“李小橙”和目标人名“李小澄”的拼音相似,采用拼音相似度计算得到的结果是待纠错文本中的“李小橙”不需要进行纠正,但实际上待纠错文本中的“李小橙”需要纠正为目标人名“李小澄”。

技术实现思路

[0004]本专利技术提供一种人名纠正方法、装置、电子设备和存储介质,用以解决现有技术中人名纠正结果精度较低的缺陷。
[0005]本专利技术提供一种人名纠正方法,包括:
[0006]确定待纠错文本中的错误人名,以及所述错误人名对应的候选人名;
[0007]将所述待纠错文本中的错误人名替换为所述候选人名,得到候选文本;
[0008]基于所述候选文本与所述候选人名间的语义相似度、所述待纠错文本的人名预测结果与所述候选人名间的相似度,以及所述待纠错文本的人名预测位置与所述候选人名的位置间的一致性,确定所述待纠错文本的人名纠正结果。
[0009]根据本专利技术提供的一种人名纠正方法,所述基于所述候选文本与所述候选人名间的语义相似度、所述待纠错文本的人名预测结果与所述候选人名间的相似度,以及所述待纠错文本的人名预测位置与所述候选人名的位置间的一致性,确定所述待纠错文本的人名纠正结果,包括:
[0010]将所述候选文本以及所述错误人名输入至纠正模型,得到所述纠正模型输出的语义相似度得分、人名相似度得分和位置一致性得分;
[0011]基于所述语义相似度得分、所述人名相似度得分和所述位置一致性得分,确定所述人名纠正结果;
[0012]其中,所述纠正模型是基于样本文本、样本文本对应的样本错误人名、样本语义相似度结果、样本人名相似度结果以及样本位置一致性结果训练得到的。
[0013]根据本专利技术提供的一种人名纠正方法,所述将所述候选文本以及所述错误人名输入至纠正模型,得到所述纠正模型输出的语义相似度得分、人名相似度得分和位置一致性得分,包括:
[0014]将所述候选文本和所述错误人名拼接,得到拼接文本;
[0015]将所述拼接文本输入至所述纠正模型的编码层,得到所述编码层输出的所述拼接文本中各分词的词编码特征;
[0016]将所述各分词的词编码特征输入至所述纠正模型的特征提取层,得到所述特征提取层输出的所述拼接文本中各分词的上下文特征;
[0017]将所述各分词的上下文特征输入至所述纠正模型的得分预测层,得到所述得分预测层输出的所述语义相似度得分、所述人名相似度得分和所述位置一致性得分。
[0018]根据本专利技术提供的一种人名纠正方法,所述词编码特征包括词特征向量、词位置向量和词掩膜向量,或者包括所述词特征向量、所述词位置向量和所述词掩膜向量,以及词拼音向量和词序列向量中的至少一种。
[0019]根据本专利技术提供的一种人名纠正方法,所述确定待纠错文本中的错误人名,以及所述错误人名对应的候选人名,包括:
[0020]将所述待纠错文本与人名字典进行匹配,确定所述错误人名和所述候选人名。
[0021]根据本专利技术提供的一种人名纠正方法,所述将所述待纠错文本与人名字典进行匹配,确定所述错误人名和所述候选人名,包括:
[0022]删除所述待纠错文本中的任一字符后,将所述待纠错文本与所述人名字典进行匹配,确定所述错误人名和所述候选人名;
[0023]和/或,将所述待纠错文本与缺失人名进行匹配,确定所述错误人名和所述候选人名;所述缺失人名是删除所述人名字典中各人名的任一字符后得到的;
[0024]和/或,删除所述待纠错文本中的任一字符后,将所述待纠错文本与所述缺失人名进行匹配,确定所述错误人名和所述候选人名。
[0025]根据本专利技术提供的一种人名纠正方法,所述将所述待纠错文本与人名字典进行匹配,包括:
[0026]对所述待纠错文本进行实体识别,得到人名信息,并将所述人名信息与所述人名字典进行匹配。
[0027]根据本专利技术提供的一种人名纠正方法,所述将所述待纠错文本与人名字典进行匹配,确定所述错误人名和所述候选人名,包括:
[0028]将所述待纠错文本与所述人名字典进行匹配,确定初始错误人名和初始候选人名;
[0029]基于所述初始错误人名与所述初始候选人名之间的字音相似度和/或字形相似度,确定所述错误人名和所述候选人名。
[0030]本专利技术还提供一种人名纠正装置,包括:
[0031]候选人名确定单元,用于确定待纠错文本中的错误人名,以及所述错误人名对应的候选人名;
[0032]候选文本确定单元,用于将所述待纠错文本中的错误人名替换为所述候选人名,得到候选文本;
[0033]人名纠正单元,用于基于所述候选文本与所述候选人名间的语义相似度、所述待纠错文本的人名预测结果与所述候选人名间的相似度,以及所述待纠错文本的人名预测位置与所述候选人名的位置间的一致性,确定所述待纠错文本的人名纠正结果。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述人名纠正方法的步骤。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述人名纠正方法的步骤。
[0036]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述人名纠正方法的步骤。
[0037]本专利技术提供的人名纠正方法、装置、电子设备和存储介质,由于候选文本与候选人名间的语义相似度考虑了候选文本的上下文相关度,待纠错文本的人名预测结果与候选人名间的相似度考虑了人名预测结果与候选人名的字符相似度,待纠错文本的人名预测位置与候选人名的位置间的一致性考虑了候选文本的句子流畅度,从而进一步提高了基于三者确定的人名纠正结果精度。
附图说明
[0038]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本专利技术提供的人名纠正方法的流程示意图;
[0040]图2是本专利技术提供的人名纠正方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人名纠正方法,其特征在于,包括:确定待纠错文本中的错误人名,以及所述错误人名对应的候选人名;将所述待纠错文本中的错误人名替换为所述候选人名,得到候选文本;基于所述候选文本与所述候选人名间的语义相似度、所述待纠错文本的人名预测结果与所述候选人名间的相似度,以及所述待纠错文本的人名预测位置与所述候选人名的位置间的一致性,确定所述待纠错文本的人名纠正结果。2.根据权利要求1所述的人名纠正方法,其特征在于,所述基于所述候选文本与所述候选人名间的语义相似度、所述待纠错文本的人名预测结果与所述候选人名间的相似度,以及所述待纠错文本的人名预测位置与所述候选人名的位置间的一致性,确定所述待纠错文本的人名纠正结果,包括:将所述候选文本以及所述错误人名输入至纠正模型,得到所述纠正模型输出的语义相似度得分、人名相似度得分和位置一致性得分;基于所述语义相似度得分、所述人名相似度得分和所述位置一致性得分,确定所述人名纠正结果;其中,所述纠正模型是基于样本文本、样本文本中的样本错误人名和样本候选人名、样本语义相似度结果、样本人名相似度结果以及样本位置一致性结果训练得到的。3.根据权利要求2所述的人名纠正方法,其特征在于,所述将所述候选文本以及所述错误人名输入至纠正模型,得到所述纠正模型输出的语义相似度得分、人名相似度得分和位置一致性得分,包括:将所述候选文本和所述错误人名拼接,得到拼接文本;将所述拼接文本输入至所述纠正模型的编码层,得到所述编码层输出的所述拼接文本中各分词的词编码特征;将所述各分词的词编码特征输入至所述纠正模型的特征提取层,得到所述特征提取层输出的所述拼接文本中各分词的上下文特征;将所述各分词的上下文特征输入至所述纠正模型的得分预测层,得到所述得分预测层输出的所述语义相似度得分、所述人名相似度得分和所述位置一致性得分。4.根据权利要求3所述的人名纠正方法,其特征在于,所述词编码特征包括词特征向量、词位置向量和词掩膜向量,或者包括所述词特征向量、所述词位置向量和所述词掩膜向量,以及词拼音向量和词序列向量中的至少一种。5.根据权利要求1至4任一项所述的人名纠正方法,其特征在于,所述确定待纠错文本中的错误人名,以及所述...

【专利技术属性】
技术研发人员:赵红红王宝鑫伍大勇陈志刚
申请(专利权)人:科大讯飞股份有限公司中科讯飞互联北京信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1