【技术实现步骤摘要】
一种中文文本拼写检查方法、系统、装置及存储介质
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种中文文本拼写检查方法、系统、装置及存储介质。
技术介绍
[0002]自然语言理解是自然语言处理技术的一个分支,该分支下的任务通常用于评估模型理解能力,语义丰富度等指标。中文文本拼写检查则是自然语言理解下的一个任务,目的是将文本中错误的字进行纠正。例如“我希望可能参加你的晚会,可是他的生体真的不太好!”,模型需要将“生”改为“身”。现存的中文拼写检查数据集包括:SIGHAN13、14、15,Wang271K,OCR数据集。这些数据均包括正确
‑
错误句子对,测试集的评估方法通常是基于字或句子级别,通过原始文本、正确文本与预测文本计算精准率(Precision)、召回率(Recall)、F1值以及准确率(Accuracy)。通过上面的例子可以发现,中文的汉字错误通常发生在近音字或者近型字之间,因此引入拼音以及字型模态的信息是必要的。当前的中文文本拼写检查解决方案或多或少都涉及了多模态信息,但是存在以下缺陷:(1)需要设计复杂的规则,比如通过由笔画顺序决定字型的特征信息。(2)没有充分考虑字音或字型之间的语义信息,没有对相邻字的拼音或字型特征信息进行建模,孤立地处理每个拼音或字型。(3)难以构建端到端的训练方案;由于缺陷(1)的原因,部分方案需要进行繁琐的后处理才能得到最终输出的文本。
技术实现思路
[0003]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种 ...
【技术保护点】
【技术特征摘要】
1.一种中文文本拼写检查方法,其特征在于,包括以下步骤:S1、获取原始文本,根据原始文本中获取文本分词序列、拼音字符串序列以及字型图片特征向量序列;S2、根据拼音字符串序列以及字型特征向量序列对拼音编码器BERT与字型编码器BERT分别进行预训练;S3、将文本分词序列、拼音字符串序列以及字型图片特征向量序列分别输入经过预训练的文本编码器BERT、拼音编码器BERT和字型编码器BERT,分别获取原始文本在语义、字音和字型上的特征向量,表示为H
T
,H
P
,H
S
;S4、将特征向量H
T
,H
P
,H
S
进行特征融合,获得融合了语义、字音和字型特征的特征隐藏向量H;S5、将特征隐藏向量H输入到预设的检错BERT和纠错BERT,获得原始文本中每个字的错误概率,以及应该被修改为其他字的概率分布。2.根据权利要求1所述的一种中文文本拼写检查方法,其特征在于,所述步骤S1,包括:将原始文本表示为X={x1,x2,
…
,x
m
},其中m是原始文本的长度;将X输入到分词器,得到文本模态的离散编码序列T={t
CLS
,t1,t2,
…
,t
m
,t
SEP
},t
i
,i∈{1,
…
,m}表示句子中的每一个字对应词表中的离散编码,句首的CLS作为句向量表示词,句末的SEP作为句子文本的结尾;将X输入到pypinyin得到拼音字符串序列,再通过针对拼音模态的分词器得到拼音模态的离散编码序列P={p
CLS
,p1,p2,
…
,p
m
,p
SEP
},其中p
i
,i∈{1,
…
,m}为t
i
对应拼音在拼音词表中的离散编码;将X输入到预设的字型结构特征提取模块,得到序列S={s
CLS
,s1,s2,
…
,s
m
,s
SEP
},其中s
i
,i∈{1,
…
,m}为t
i
对应的字型特征向量。3.根据权利要求2所述的一种中文文本拼写检查方法,其特征在于,所述字型结构特征提取模块的工作方式如下:将每个位置的汉字转换为三种字体图片;将三种字体图片的RGB格式图片在第三维度进行堆叠,作为输入张量;将输入张量输入到6层卷积神经网络中,得到每个位置对应的字型特征向量,从而组成序列S。4.根据权利要求1所述的一种中文文本拼写检查方法,其特征在于,所述步骤S2,包括:将拼音字符串序列中15%的位置进行按以下规则进行处理:80%替换成相似拼音的离散编码,10%随机替换成另一个拼音的离散编码以及10%维持不变;将字型特征向量序列中15%的位置进行按以下规则进行处理:80%替换成相似字的特征向量,10%随机替换成另一个字的特征向量以及10%维持不变;将修改后的序列作为输入,原始序列作为输出,编码器BERT输出修改位置的概率分布,并通过概率分布与原始位置的真实值比较...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。