融合规则和序列标注的中文端数字检查方法技术

技术编号:37817964 阅读:25 留言:0更新日期:2023-06-09 09:49
本发明专利技术具体涉及一种融合规则和序列标注的中文端数字检查方法,该中文端数字检查方法包括:规则方法检测数字,编写规则,以及其对应的错误类别,对待检测文本进行检测,维护结果,遍历文本,对每个句子遍历尝试查找数字串并进行分类,同时判别数字串是否存在;按照不同的类别,进行不同的处理,获得错误区间和类别的序列;序列标注方法检测非法数字,使用基于特征的无向图技术来表示包含数字的文本;合并和输出,规则输出的结果和序列标注模型输出的结果合并在一起,以区间

【技术实现步骤摘要】
融合规则和序列标注的中文端数字检查方法


[0001]本专利技术属于数字检查方法
,具体涉及一种融合规则和序列标注的中文端数字检查方法。

技术介绍

[0002]2011年颁布的《中华人民共和国国家标准》中的《出版物上的数字用法》中有关于数字形式选用情形的规范。现有的技术基本能做到如果中文中使用阿拉伯数字0123456789进行数字描述时能够进行检查。但是,缺乏规则和机器学习模型结合的检测手段,机器翻译训练语料中的中文端数字检查(不限语向),以及译后质量检测,且机器学习模型所需语料消耗人工过多。

技术实现思路

[0003]为了解决现有技术中存在的上述问题,本专利技术提供了一种融合规则和序列标注的中文端数字检查方法,可以联合规则与机器学习模型找出尽可能全面的数字错误,方便翻译语料质量检测和译后质量检测。
[0004]本专利技术要解决的技术问题通过以下技术方案实现:
[0005]一种融合规则和序列标注的中文端数字检查方法,包括如下步骤:
[0006]步骤一,规则方法检测数字:
[0007]1)编写一套描述错误数字子串的规则,以及其对应的错误类别;
[0008]2)对待检测文本进行检测:维护结果,遍历文本,对每个句子遍历尝试查找数字串并进行分类,同时判别数字串是否存在;
[0009]3)按照不同的类别,进行不同的处理,获得错误区间和类别的序列;
[0010]步骤二,序列标注方法检测非法数字:
[0011]检测数字看作一个序列标注任务,根据每个字符所处的上下文,预测当前字符是否是错误格式数字、该改什么,使用基于特征的无向图技术来表示包含数字的文本;
[0012]步骤三,合并和输出:
[0013]规则输出的结果和序列标注模型输出的结果合并在一起,以区间

错误类型的形式输出。
[0014]进一步地,上述步骤三中,如果规则和序列标注模型相冲突,即存在规则结果区间和序列标注模型结果区间重叠(但不相同),或同一个区间的错误类型在规则和模型端不同,则以模型结果为准。
[0015]进一步地,上述的融合规则和序列标注的中文端数字检查方法,数字错误在序列角度可分为两类:a)数字串内部不一致,b)数字串与语境不匹配。
[0016]进一步地,上述的融合规则和序列标注的中文端数字检查方法,两个类别错误的判别方法:数字字符左右的数字字符;数字串左右特定表述。
[0017]进一步地,上述步骤一前还包括准备工作,所述准备工作是指准备一个汉字数字
分类器和一个阿拉伯数字

汉字数字转换器;
[0018]所述汉字数字分类器对汉字数字串进行分类;
[0019]所述阿拉伯数字

汉字数字转换器需要分类的输出类别决定转换策略。
[0020]进一步地,上述的融合规则和序列标注的中文端数字检查方法,其特征在于,汉字数字分类器对汉字数字串的分类包含:a)含义不明、b)年号和干支纪年、c)组合含义、d)公元纪年、e)金额、f)日期、g)其他。
[0021]进一步地,上述的融合规则和序列标注的中文端数字检查方法,步骤一中按照不同的类别进行不同的处理具体为:
[0022]不存在数字串的直接输出空结果;
[0023]对a)含义不明、c)组合含义的情况不作任何处理;
[0024]对d)公元纪年只检测是否一致;
[0025]对余下数字串,遍历所有规则匹配,如命中则停止遍历规则,记录当前规则对应的错误类型,并将错误数字串的起止范围和错误类型计入R。
[0026]一种融合规则和序列标注的中文端数字检查系统,由规则和序列标注模型两部分组成,所述规则和序列标注模型在最终预测阶段进行结果合并。
[0027]与现有技术相比,本专利技术的有益效果:
[0028]本专利技术的融合规则和序列标注的中文端数字检查方法,可以联合规则与机器学习模型找出尽可能全面的数字错误,方便翻译语料质量检测和译后质量检测;且机器学习所使用的语料获取方法不依赖人工。
附图说明
[0029]图1是本专利技术中文端数字检查方法流程图。
具体实施方式
[0030]下面结合具体实施例对本专利技术做进一步详细的描述,但本专利技术的实施方式不限于此。
[0031]本实施例提供了一种融合规则和序列标注的中文端数字检查方法,参照附图1,该中文端数字检查方法联合规则和序列标注模型的方法,找出字符串中格式不恰当的数字子串,并识别错误类型,以及修正建议。
[0032]1.定义错误
[0033]a)汉字数字含义不明(不符合汉语构词的数字串);
[0034]b)汉字大小写错误(大小写混用、应用大写时误用小写、应用小写时误用大写);
[0035]c)阿拉伯数字与汉字混淆(阿拉伯数字与汉字数字混用、应用阿拉伯数字时误用汉字、应用汉字时误用阿拉伯数字)。
[0036]2.准备工作
[0037]首先,准备一个汉字数字分类器(“分类器”)和一个阿拉伯数字

汉字数字转换器(“转换器”)。
[0038]汉字数字分类器将对汉字数字串进行分类,包含如下类:
[0039]a)含义不明(构词错误、语法错误)
[0040]第千十五章
[0041]第六十千位
[0042]b)年号和干支纪年
[0043]景佑二年
[0044]洪武二十四年
[0045]c)组合含义
[0046]高三
[0047]三缄其口
[0048]不管三七二十一
[0049]张四维
[0050]d)公元纪年
[0051]二零零四年
[0052]二〇〇四年
[0053]e)金额
[0054]七千九百元
[0055]柒仟玖佰元整
[0056]f)日期
[0057]7月24日
[0058]七月二十四日
[0059]7月24号
[0060]g)其他。
[0061]而阿拉伯数字

汉字数字转换器则需要能够实现如下转换:
[0062]公元纪年:
[0063]2004

>二〇〇四、两千零四
[0064]二零零四年

>2004年;
[0065]其他:
[0066]1240

>一千二百四十、一千二百四、一千两百四十、一千两百四
[0067]一万一千八

>11800
[0068]一十五

>15
[0069]廿四

>24。
[0070]转换器需要分类的输出类别决定转换策略(默认为其他),分类器和转换器会在下游的规则检测和序列标注环本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合规则和序列标注的中文端数字检查方法,其特征在于,包括如下步骤:步骤一,规则方法检测数字:1)编写一套描述错误数字子串的规则,以及其对应的错误类别;2)对待检测文本进行检测,维护结果,遍历文本,对每个句子遍历尝试查找数字串并进行分类,同时判别数字串是否存在;3)按照不同的类别,进行不同的处理,获得错误区间和类别的序列;步骤二,序列标注方法检测非法数字:检测数字看作一个序列标注任务,根据每个字符所处的上下文,预测当前字符是否是错误格式数字、该改什么,使用基于特征的无向图技术来表示包含数字的文本;步骤三,合并和输出:规则输出的结果和序列标注模型输出的结果合并在一起,以区间

错误类型的形式输出。2.根据权利要求1所述的融合规则和序列标注的中文端数字检查方法,其特征在于,所述步骤三中,如果规则和序列标注模型相冲突,即存在规则结果区间和序列标注模型结果区间重叠(但不相同),或同一个区间的错误类型在规则和模型端不同,则以模型结果为准。3.根据权利要求1所述的融合规则和序列标注的中文端数字检查方法,其特征在于,数字错误在序列角度可分为两类:a)数字串内部不一致,b)数字串与语境不匹配。4.根据权利要求3所述的融合规则和序列标注的中文端数字检查方法,其特征在于,两个类别...

【专利技术属性】
技术研发人员:田佳成李光华薛景元
申请(专利权)人:甲骨易北京语言科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1