一种基于朴素贝叶斯模型的文本语种识别方法和装置制造方法及图纸

技术编号:35926778 阅读:22 留言:0更新日期:2022-12-14 10:10
本发明专利技术涉及一种基于朴素贝叶斯模型的文本语种识别方法和装置,属于计算机对自然语言处理的技术领域。该方法包括以下步骤:语种文本数据收集、文本预处理、字符ngram特征提取、特征及频数保存、朴素贝叶斯模型预测。本发明专利技术能够准确、高效地实现中文简体、中文繁体、英、法等105种语言的语种识别,通过有效的利用高阶gram特征,提高了识别正确率,在海量新闻及全球社交网络文本数据处理中具有广泛的应用前景。前景。前景。

【技术实现步骤摘要】
一种基于朴素贝叶斯模型的文本语种识别方法和装置


[0001]本专利技术属于计算机对自然语言处理
,具体涉及一种基于朴素贝叶斯模型的语种识别方法和装置。

技术介绍

[0002]随着全球化进程的推进以及互联网的发展和普及,网络中文本的数量激增且出现多语种并存的现象。自动识别网络中的文本所属的语种类型,对于文本翻译、文本分析等一些有特定需求的自然语言处理都是一道必经的过程。
[0003]文本语种识别作为跨语言分析处理的核心技术已受到广泛关注。目前广泛使用的技术为提取ngram特征,然后使用朴素贝叶斯方法进行语种类别预测。比如语言检测工具language

detection(http://code.google.com/p/language

detection)采用的方法提出了包含一系列字符标准化后使用朴素贝叶斯进行语种识别,使用基于字符n

gram的表示法。
[0004]已有方法存在以下问题:上述方法只使用了1,2,3gram特征,没有有效的使用高阶gram特征,导致对于多语种识别正确率不高;并且可识别语种只有55种,识别语种数量也无法达到对多语种识别的要求。

技术实现思路

[0005]为了克服上述现有技术的不足,本专利技术提供了一种基于朴素贝叶斯模型的语种识别方法和装置。通过有效的利用高阶gram特征,提高识别正确率,并且可识别语种达到105种,远远大于现有方法预测语种的数量。
[0006]本专利技术所采用的技术方案是:
[0007]一种基于朴素贝叶斯模型的语种识别方法,包括以下步骤:
[0008]步骤1:语种文本数据收集,将数据分为训练集、测试集。
[0009]步骤2:文本预处理,对语种文本进行字符标准化和噪音过滤。
[0010]步骤3:字符ngram特征提取,并对特征进行进一步筛选。
[0011]步骤4:保存语种特征及频数,以在预测文本语种时使用。
[0012]步骤5:利用步骤4保存的语种特征及频数,使用朴素贝叶斯模型对待预测文本进行预测,得到待预测文本的语种类型。
[0013]进一步地,步骤1包括:下载THUCNews清华中文分类数据集,使用谷歌翻译把数据翻译为英、法等105种语种文本,把除了中文简体、中文繁体、日语外的102种语种文本中的简体汉字去除,得到105种带有语种标签的语种文本,以8:2的比例将语种文本划分为训练集和测试集。
[0014]进一步地,步骤2包括:去掉文本中的邮箱地址,去掉文本中的URL符号http://,去掉文本中的推特文本提及符号@,去掉文本中的推特文本主题标签符号#,去掉文本中推特文本转发符号rt,去掉文本中的特殊标点符号,包括\\—`,。、?;:
‘’

·
~.
“”
"'?\^!,:\
(\);\[\]…
/\\=\+\.\{\}\~#&\*——\<\>\$\_\|\

\@等(其中\代表转义符),对C0控制符及基本拉丁文字符进行标准化(对字符不是a

z,A

z的字符一律为

),对常用标点字符进行标准化(对该字符一律为

),对阿拉伯文字符进行标准化(把u06cc改为u064a),对拉丁文扩充附加字符进行标准化(把u1ea0改为u1ec3),对日文平假名字符进行标准化(把这些字符一律转为u3042),对日文片假名字符进行标准化(把这些字符一律转为u30a2),对汉语注音字符及汉语注音字母扩展字符进行标准化(把这些字符一律转为u3105),对中日朝同意表意符号字符进行标准化(对中日朝字符分类,分为126类,然后字符在其中一类时只用一个字符代替,如果不在分类当中,则不使用原字符),对韩语谚文音节字符进行标准化(把这些字符一律转为uac00)。
[0015]进一步地,步骤3包括:对文本提取1,2,3,4,5,6,7gram特征,移除掉其中特征频数小于2的特征。步骤3中ngram特征的提取过程为:
[0016](1)对输入的文本取每一个字符,对每一个字符先进行字符标准化处理。
[0017](2)设置一个字符串变量,依次把文本中每一个标准化后的字符追加在后面。
[0018](3)取出字符串变量的ngram特征,如1,2,3,4,5,6,7gram特征。
[0019]进一步地,步骤4包括:保存ngram特征的总数量、每个特征及相应的频数、语种类型。
[0020]步骤4具体包括以下步骤:
[0021](1)设置最小频率。比如设置最小频率为2。
[0022](2)从提取的特征中去除频率小于等于最小频率的特征。
[0023](3)得到提取的特征,最终保存ngram特征特征的总数量,每个特征及频数、语种类型。“频数”是指特征在训练集中出现的次数。
[0024]进一步地,步骤5包括:加载每个语种的特征文件,提取出训练数据集的ngram特征;对待预测文本进行预处理,提取待预测文本的ngram特征,利用提取的各语种训练数据集的ngram特征及频数,使用朴素贝叶斯模型进行预测,得到待预测文本的语种类型。
[0025]进一步地,所述步骤5中,朴素贝叶斯模型的预测过程为:
[0026](1)加载每个语种的特征文件,提取各语种训练数据集的ngram特征及频数。
[0027](2)求得各语种训练数据集的特征对各语种的先验概率,对先验概率求log值。从而在后续步骤中能够将概率相乘转变为求log值相加,以简化求解过程。
[0028](3)对输入的待预测文本进行预处理。
[0029](4)提取输入的待预测文本的ngram特征。
[0030](5)对输入的待预测文本所有的ngram特征,求得其相对各语种的先验概率,将待预测文本的ngram特征相对于同一语种的先验概率的log值相加。
[0031](6)返回log值相加结果最大的值相对应的语种作为语种识别结果。
[0032]其中贝叶斯模型原理为:
[0033][0034]其中,C
i
表示某个文本的语种类别,X表示提取的ngram特征,P(C
i
|X)表示已知特征情况下文本的语种类别,P(X|C
i
)表示已知文本类别下特征的概率,P(C
i
)表示某个语种类别的数据集占总数据集的比例,P(X)表示在训练集中某个特征出现的概率。
[0035]由于在语种识别中,每个语种类别概率P(C
i
)和已知某个特征集的概率P(X)为定值(训练集是确定的,所以某个特征的概率P(X)为定值;训练集中各个语种类别的文本数量是相同的,各语种文本都是用THUCNews清华中文分类数据集翻译而来),所以计算后验概率可以近似为以下公式(其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于朴素贝叶斯模型的文本语种识别方法,其特征在于,包括以下步骤:收集语种文本数据;对语种文本数据进行预处理,包括字符标准化和噪音过滤;对预处理后的文本提取ngram特征;保存提取的ngram特征及相应的频数;利用ngram特征及频数,使用朴素贝叶斯模型对待预测文本进行预测,得到待预测文本的语种类型。2.根据权利要求1所述的方法,其特征在于,所述收集语种文本数据,包括:下载中文分类数据集,将其翻译为105种语种文本,把除了中文简体、中文繁体、日语外的102种语种文本中的简体汉字去除,得到105种带有语种标签的语种文本,以8:2的比例将语种文本划分为训练集和测试集。3.根据权利要求1所述的方法,其特征在于,所述对语种文本数据进行预处理,包括:去掉文本中的邮箱地址,去掉文本中的URL符号http://,去掉文本中的推特文本提及符号@,去掉文本中的推特文本主题标签符号#,去掉文本中推特文本转发符号rt,去掉文本中的特殊标点符号;对C0控制符及基本拉丁文字符进行标准化,对常用标点字符进行标准化,对阿拉伯文字符进行标准化,对拉丁文扩充附加字符进行标准化,对日文平假名字符进行标准化,对日文片假名字符进行标准化,对汉语注音字符及汉语注音字母扩展字符进行标准化,对中日朝同意表意符号字符进行标准化,对韩语谚文音节字符进行标准化。4.根据权利要求1所述的方法,其特征在于,所述对预处理后的文本提取ngram特征,包括:对文本提取ngram特征,移除掉其中特征频数小于2的特征。5.根据权利要求4所述的方法,其特征在于,ngram特征的提取过程包括:对输入的文本取每一个字符,对每一个字符先进行字符标准化处理;设置一个字符串变量,依次把文本中每一个标准化后的字符追加在后面;取出字符串变量的ngram特征。6.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:胡晓惠焦程波许舟军徐智慧孔令爽刘彬王瑞
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1