一种基于BayesLSTM的语种识别方法技术

技术编号:31229711 阅读:10 留言:0更新日期:2021-12-08 09:59
本发明专利技术公开了一种基于BayesLSTM的语种识别方法,包括以下步骤:S1、构建词向量模型;S2、词向量作为输入,输入到LSTM中;S3、通过概率密度分布来对权重进行采样,优化分布参数;S4、通过Softmax分类器对经过贝叶斯优化的特征向量进行预测分类;S5、根据步骤S4的预测分类概率,最终得到文本的分类类别标签。有益效果:本发明专利技术的方法通过估计模型参数的不确定性来提高模型的鲁棒性和语种识别的准确率。模型的鲁棒性和语种识别的准确率。模型的鲁棒性和语种识别的准确率。

【技术实现步骤摘要】
一种基于BayesLSTM的语种识别方法


[0001]本专利技术涉及语种识别领域,具体来说,涉及一种基于BayesLSTM的语种识 别方法。

技术介绍

[0002]文本语种识别被当做是一种基于某种特殊特征的文本分类任务。目前主要 采用基于N

gram模型的方法和基于深度学习的方法。现有全监督分类器 langid.py是基于多项式贝叶斯分类方法实现了一种对场景不敏感的语种识 别模型,通过概率计算的方式判断一组候选语言中最有可能的语言概率值。可 以识别97种语言场景,其特征抽取采用互信息的特征N

gram项,这种基于 N

gram模型的方法适用于长文本,测试文档越长,识别的准确率越高。该方 法对短文本的识别比较局限,尤其是对关注中文简体、中文正体、中文繁体等, 在识别中存在较大的困难。
[0003]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术的目的在于提供一种基于BayesLSTM的语种识别方法,以解决 上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于BayesLSTM的语种识别方法,包括以下步骤:
[0007]S1、构建词向量模型;
[0008]S2、词向量作为输入,输入到LSTM中;
[0009]S3、通过概率密度分布来对权重进行采样,优化分布参数;
[0010]S4、通过Softmax分类器对经过贝叶斯优化的特征向量进行预测分类;
[0011]S5、根据步骤S4的预测分类概率,最终得到文本的分类类别标签。
[0012]进一步的,所述步骤S1构建词向量模型包括以下步骤:
[0013]S11、对采集的语种的语料文件进行预处理形成语料库;
[0014]S12、对每个语种采用token生成器将每个句子表示为词向量和字向量;
[0015]S13、将输入的词转化为向量,然后将词中的每一个字符进行了拆解;
[0016]S14、用LSTM模型将词所包含的所有字符转化为向量,并对词和字符转化 的向量进行拼接。
[0017]进一步的,所述步骤S2词向量作为输入,输入到LSTM中包括以下步骤:
[0018]S21、以第一步的词向量作为输入,很好地保留了句子中词与词之间的信 息;
[0019]S22、LSTM网络信息的更新和保留是由输入门、遗忘门、输出门和一个单 元来实现的。
[0020]进一步的,所述输入门决定了当前时刻网络的输入有多少保存到单元状 态;
[0021]所述遗忘门决定了上一时刻的单元状态有多少保留到当前时刻;
[0022]所述输出门控制单元状态有多少输出到LSTM的当前输出值。
[0023]与现有技术相比,本专利技术具有以下有益效果:本专利技术根据网络爬虫数据构 建语种语料库,通过对不同语言文本进行字符串处理后得到训练集数据;构建 基于贝叶斯优化的LSTM模型的语种识别方法,利用长短记忆网络(LSTM)学 习词语之间的依赖关系,并采用贝叶斯的概率密度分布对网络的权重参数进行 优化;接着对训练数据进行时序迭代训练,更新模型参数;搭建语种识别系统 进行预测。本专利技术的方法通过估计模型参数的不确定性来提高模型的鲁棒性和 语种识别的准确率。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施 例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是 本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的 前提下,还可以根据这些附图获得其他的附图。
[0025]图1是根据本专利技术实施例的一种基于BayesLSTM的语种识别方法的流程 图。
具体实施方式
[0026]下面,结合附图以及具体实施方式,对专利技术做出进一步的描述:
[0027]请参阅图1,根据本专利技术实施例的一种基于BayesLSTM的语种识别方 法,包括以下步骤:
[0028]步骤S1:构建词向量模型
[0029]对采集的语种的语料文件进行预处理形成语料库,对每个语种采用 token生成器将每个句子表示为词向量和字向量。即将输入的词转化为向 量,然后将词中的每一个字符进行了拆解,用LSTM模型将词所包含的所有 字符转化为向量,并对词和字符转化的向量进行拼接。
[0030]步骤S2:词向量作为输入,输入到LSTM中。
[0031]以第一步的词向量作为输入,很好地保留了句子中词与词之间的信息。 LSTM网络信息的更新和保留是由输入门it、遗忘门ft、输出门ot和一个 cell单元ct来实现的。
[0032]输入门(inputgate)决定了当前时刻网络的输入xt有多少保存到单元 状态ct,可以避免当前无关紧要的内容进入记忆。
[0033]i
t
=σ(W
i
X
t
+U
i
h
t
‑1+b
i
)
[0034]遗忘门(forget gate)决定了上一时刻的单元状态ct

1有多少保留到 当前时刻ct,可以保存很久很久之前的信息.表示为:
[0035]f
t
=σ(W
f
X
t
+U
f
h
t
‑1+b
f
)
[0036]输出门(output gate)控制单元状态ct有多少输出到LSTM的当前输出 值ht,可以控制长期记忆对当前输出的影响.表示为:
[0037]o
t
=σ(W
o
X
t
+U
o
h
t
‑1+b
o
)
[0038]当前时刻更新后的信息由ct来表示:
[0039]c
t
=f
t
×
c
t
‑1+i
t
×
g
t
[0040]其中:g
t
=tanh(W
g
X
t
+U
g
h
t
‑1+b
g
)
[0041]最终输出的信息为:
[0042]c
t
=o
t
×
tanh(c
t
)
[0043]其中W,U表示神经网络的权重系数,b表示偏置,xt表示输入的词向 量,ht

1是LSTM层上一时刻的隐藏层的输出结果,ct

1表示上一时刻的 历史信息,gt表示候选状态下当前单元的信息,σ和tanh表示为激活函数。
[0044]步骤S3:由于LSTM不能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BayesLSTM的语种识别方法,其特征在于,包括以下步骤:S1、构建词向量模型;S2、词向量作为输入,输入到LSTM中;S3、通过概率密度分布来对权重进行采样,优化分布参数;S4、通过Softmax分类器对经过贝叶斯优化的特征向量进行预测分类;S5、根据步骤S4的预测分类概率,最终得到文本的分类类别标签。2.根据权利要求1所述的一种基于BayesLSTM的语种识别方法,其特征在于,所述步骤S1构建词向量模型包括以下步骤:S11、对采集的语种的语料文件进行预处理形成语料库;S12、对每个语种采用token生成器将每个句子表示为词向量和字向量;S13、将输入的词转化为向量,然后将词中的每一个字符进行了拆解;S1...

【专利技术属性】
技术研发人员:周少龙陈欣洁余智华冯凯李建广
申请(专利权)人:中科天玑数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1