一种基于朴素贝叶斯模型的文本语种识别方法和装置制造方法及图纸

技术编号：35926778 阅读：22 留言：0更新日期：2022-12-14 10:10

本发明专利技术涉及一种基于朴素贝叶斯模型的文本语种识别方法和装置，属于计算机对自然语言处理的技术领域。该方法包括以下步骤：语种文本数据收集、文本预处理、字符ngram特征提取、特征及频数保存、朴素贝叶斯模型预测。本发明专利技术能够准确、高效地实现中文简体、中文繁体、英、法等105种语言的语种识别，通过有效的利用高阶gram特征，提高了识别正确率，在海量新闻及全球社交网络文本数据处理中具有广泛的应用前景。前景。前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于朴素贝叶斯模型的文本语种识别方法和装置

[0001]本专利技术属于计算机对自然语言处理
，具体涉及一种基于朴素贝叶斯模型的语种识别方法和装置。

技术介绍

[0002]随着全球化进程的推进以及互联网的发展和普及，网络中文本的数量激增且出现多语种并存的现象。自动识别网络中的文本所属的语种类型，对于文本翻译、文本分析等一些有特定需求的自然语言处理都是一道必经的过程。
[0003]文本语种识别作为跨语言分析处理的核心技术已受到广泛关注。目前广泛使用的技术为提取ngram特征，然后使用朴素贝叶斯方法进行语种类别预测。比如语言检测工具language
‑
detection(http://code.google.com/p/language
‑
detection)采用的方法提出了包含一系列字符标准化后使用朴素贝叶斯进行语种识别，使用基于字符n
‑
gram的表示法。
[0004]已有方法存在以下问题：上述方法只使用了1,2,3gram特征，没有有效的使用高阶gram特征，导致对于多语种识别正确率不高；并且可识别语种只有55种，识别语种数量也无法达到对多语种识别的要求。

技术实现思路

[0005]为了克服上述现有技术的不足，本专利技术提供了一种基于朴素贝叶斯模型的语种识别方法和装置。通过有效的利用高阶gram特征，提高识别正确率，并且可识别语种达到105种，远远大于现有方法预测语种的数量。
[0006]本专利技术所采用的技术方案...

【技术保护点】

【技术特征摘要】
1.一种基于朴素贝叶斯模型的文本语种识别方法，其特征在于，包括以下步骤：收集语种文本数据；对语种文本数据进行预处理，包括字符标准化和噪音过滤；对预处理后的文本提取ngram特征；保存提取的ngram特征及相应的频数；利用ngram特征及频数，使用朴素贝叶斯模型对待预测文本进行预测，得到待预测文本的语种类型。2.根据权利要求1所述的方法，其特征在于，所述收集语种文本数据，包括：下载中文分类数据集，将其翻译为105种语种文本，把除了中文简体、中文繁体、日语外的102种语种文本中的简体汉字去除，得到105种带有语种标签的语种文本，以8：2的比例将语种文本划分为训练集和测试集。3.根据权利要求1所述的方法，其特征在于，所述对语种文本数据进行预处理，包括：去掉文本中的邮箱地址，去掉文本中的URL符号http://，去掉文本中的推特文本提及符号@，去掉文本中的推特文本主题标签符号#，去掉文本中推特文本转发符号rt，去掉文本中的特殊标点符号；对C0控制符及基本拉丁文字符进行标准化，对常用标点字符进行标准化，对阿拉伯文字符进行标准化，对拉丁文扩充附加字符进行标准化，对日文平假名字符进行标准化，对日文片假名字符进行标准化，对汉语注音字符及汉语注音字母扩展字符进行标准化，对中日朝同意表意符号字符进行标准化，对韩语谚文音节字符进行标准化。4.根据权利要求1所述的方法，其特征在于，所述对预处理后的文本提取ngram特征，包括：对文本提取ngram特征，移除掉其中特征频数小于2的特征。5.根据权利要求4所述的方法，其特征在于，ngram特征的提取过程包括：对输入的文本取每一个字符，对每一个字符先进行字符标准化处理；设置一个字符串变量，依次把文本中每一个标准化后的字符追加在后面；取出字符串变量的ngram特征。6.根据权利要求1所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：胡晓惠，焦程波，许舟军，徐智慧，孔令爽，刘彬，王瑞，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人