融合规则和序列标注的中文端数字检查方法技术

技术编号：37817964 阅读：25 留言：0更新日期：2023-06-09 09:49

本发明专利技术具体涉及一种融合规则和序列标注的中文端数字检查方法，该中文端数字检查方法包括：规则方法检测数字，编写规则，以及其对应的错误类别，对待检测文本进行检测，维护结果，遍历文本，对每个句子遍历尝试查找数字串并进行分类，同时判别数字串是否存在；按照不同的类别，进行不同的处理，获得错误区间和类别的序列；序列标注方法检测非法数字，使用基于特征的无向图技术来表示包含数字的文本；合并和输出，规则输出的结果和序列标注模型输出的结果合并在一起，以区间

全部详细技术资料下载

【技术实现步骤摘要】
融合规则和序列标注的中文端数字检查方法

[0001]本专利技术属于数字检查方法
，具体涉及一种融合规则和序列标注的中文端数字检查方法。

技术介绍

[0002]2011年颁布的《中华人民共和国国家标准》中的《出版物上的数字用法》中有关于数字形式选用情形的规范。现有的技术基本能做到如果中文中使用阿拉伯数字0123456789进行数字描述时能够进行检查。但是，缺乏规则和机器学习模型结合的检测手段，机器翻译训练语料中的中文端数字检查(不限语向)，以及译后质量检测，且机器学习模型所需语料消耗人工过多。

技术实现思路

[0003]为了解决现有技术中存在的上述问题，本专利技术提供了一种融合规则和序列标注的中文端数字检查方法，可以联合规则与机器学习模型找出尽可能全面的数字错误，方便翻译语料质量检测和译后质量检测。
[0004]本专利技术要解决的技术问题通过以下技术方案实现：
[0005]一种融合规则和序列标注的中文端数字检查方法，包括如下步骤：
[0006]步骤一，规则方法检测数字：
[0007]1)编写一套描述错误数字子串的规则，以及其对应的错误类别；
[0008]2)对待检测文本进行检测：维护结果，遍历文本，对每个句子遍历尝试查找数字串并进行分类，同时判别数字串是否存在；
[0009]3)按照不同的类别，进行不同的处理，获得错误区间和类别的序列；
[0010]步骤二，序列标注方法检测非法数字：
[0011]检测数字看作一个序列标注任务，根据每个...

【技术保护点】

【技术特征摘要】
1.一种融合规则和序列标注的中文端数字检查方法，其特征在于，包括如下步骤：步骤一，规则方法检测数字：1)编写一套描述错误数字子串的规则，以及其对应的错误类别；2)对待检测文本进行检测，维护结果，遍历文本，对每个句子遍历尝试查找数字串并进行分类，同时判别数字串是否存在；3)按照不同的类别，进行不同的处理，获得错误区间和类别的序列；步骤二，序列标注方法检测非法数字：检测数字看作一个序列标注任务，根据每个字符所处的上下文，预测当前字符是否是错误格式数字、该改什么，使用基于特征的无向图技术来表示包含数字的文本；步骤三，合并和输出：规则输出的结果和序列标注模型输出的结果合并在一起，以区间
‑
错误类型的形式输出。2.根据权利要求1所述的融合规则和序列标注的中文端数字检查方法，其特征在于，所述步骤三中，如果规则和序列标注模型相冲突，即存在规则结果区间和序列标注模型结果区间重叠(但不相同)，或同一个区间的错误类型在规则和模型端不同，则以模型结果为准。3.根据权利要求1所述的融合规则和序列标注的中文端数字检查方法，其特征在于，数字错误在序列角度可分为两类：a)数字串内部不一致，b)数字串与语境不匹配。4.根据权利要求3所述的融合规则和序列标注的中文端数字检查方法，其特征在于，两个类别...

【专利技术属性】
技术研发人员：田佳成，李光华，薛景元，
申请(专利权)人：甲骨易北京语言科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人