一种基于BayesLSTM的语种识别方法技术

技术编号：31229711 阅读：10 留言：0更新日期：2021-12-08 09:59

本发明专利技术公开了一种基于BayesLSTM的语种识别方法，包括以下步骤：S1、构建词向量模型；S2、词向量作为输入，输入到LSTM中；S3、通过概率密度分布来对权重进行采样，优化分布参数；S4、通过Softmax分类器对经过贝叶斯优化的特征向量进行预测分类；S5、根据步骤S4的预测分类概率，最终得到文本的分类类别标签。有益效果：本发明专利技术的方法通过估计模型参数的不确定性来提高模型的鲁棒性和语种识别的准确率。模型的鲁棒性和语种识别的准确率。模型的鲁棒性和语种识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BayesLSTM的语种识别方法

[0001]本专利技术涉及语种识别领域，具体来说，涉及一种基于BayesLSTM的语种识别方法。

技术介绍

[0002]文本语种识别被当做是一种基于某种特殊特征的文本分类任务。目前主要采用基于N
‑
gram模型的方法和基于深度学习的方法。现有全监督分类器 langid.py是基于多项式贝叶斯分类方法实现了一种对场景不敏感的语种识别模型，通过概率计算的方式判断一组候选语言中最有可能的语言概率值。可以识别97种语言场景，其特征抽取采用互信息的特征N
‑
gram项，这种基于 N
‑
gram模型的方法适用于长文本，测试文档越长，识别的准确率越高。该方法对短文本的识别比较局限，尤其是对关注中文简体、中文正体、中文繁体等，在识别中存在较大的困难。
[0003]针对相关技术中的问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术的目的在于提供一种基于BayesLSTM的语种识别方法，以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的，本专利技术提供如下技术方案：
[0006]一种基于BayesLSTM的语种识别方法，包括以下步骤：
[0007]S1、构建词向量模型；
[0008]S2、词向量作为输入，输入到LSTM中；
[0009]S3、通过概率密度分布来对权重进行采样，优化分布参数；
[0010]S4、通过Softmax...

【技术保护点】

【技术特征摘要】
1.一种基于BayesLSTM的语种识别方法，其特征在于，包括以下步骤：S1、构建词向量模型；S2、词向量作为输入，输入到LSTM中；S3、通过概率密度分布来对权重进行采样，优化分布参数；S4、通过Softmax分类器对经过贝叶斯优化的特征向量进行预测分类；S5、根据步骤S4的预测分类概率，最终得到文本的分类类别标签。2.根据权利要求1所述的一种基于BayesLSTM的语种识别方法，其特征在于，所述步骤S1构建词向量模型包括以下步骤：S11、对采集的语种的语料文件进行预处理形成语料库；S12、对每个语种采用token生成器将每个句子表示为词向量和字向量；S13、将输入的词转化为向量，然后将词中的每一个字符进行了拆解；S1...

【专利技术属性】
技术研发人员：周少龙，陈欣洁，余智华，冯凯，李建广，
申请(专利权)人：中科天玑数据科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人