一种基于CNN和RCNN模型的文本识别方法及装置制造方法及图纸

技术编号:25837065 阅读:52 留言:0更新日期:2020-10-02 14:17
本发明专利技术提供一种基于CNN和RCNN模型的文本识别方法及装置,所述方法包括:抓取待识别网页文本,识别待识别网页文本中的字符及词汇;构建基于CNN和RCNN的融合模型,所述融合模型包括第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型、融合层、及一个Softmax层,所述融合层对第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型的输出数据确定融合比例;得到训练好的融合模型;将待识别网页文本中的字符编码及词汇编码同步输入训练好的融合模型,得到识别结果。根据本发明专利技术的方案,有效提高了非法字符、文字的识别效率和识别正确率。

【技术实现步骤摘要】
一种基于CNN和RCNN模型的文本识别方法及装置
本专利技术涉及文本识别领域,尤其涉及一种基于CNN和RCNN模型的文本识别方法及装置。
技术介绍
在互联网日益发展的现在,网络信息越来越多,内容也越来越杂。一些网站中涉及非法内容更是层出不穷,网络语言污染呈现蔓延之势,在各种网络论坛、微博、微信中,常见满屏满窗的污言秽语,把涉黄涉暴语言当个性和时尚者大有人在。一些公众人物、知名人士等,对这股风气也推波助澜、乐此不疲。这种不良话语风气不仅侵害汉语的纯洁性,更严重搅乱了网络交流和讨论的善意和诚意。网络虚拟世界与现实社会生活有着千丝万缕的关系,网络话语“病毒”泛滥,反过来会刺激和助长现实社会中的戾气和低俗之风。因此为了遏制这种不良、违法风气等蔓延,网络的净网需求也就日益增高。对于网络上敏感、涉暴涉黄等文本文字的识别需求也就越来越重要。因此,对于网络上的文本的识别能力的要求就越来越高了。但现有技术中对网络涉黄涉暴的文本识别,正确率和识别效率都不够高。
技术实现思路
为解决上述技术问题,本专利技术提出了一种基于CNN和RCNN模型的文本识别方法及装置,所述方法及装置,用以解决现有技术中对网络涉黄涉暴的文本识别,正确率和识别效率都不够高的技术问题。根据本专利技术的第一方面,提供一种基于CNN和RCNN模型的文本识别方法,所述方法包括以下步骤:步骤S101:抓取待识别网页文本,识别待识别网页文本中的字符及对网页文本进行分词,获得待识别网页文本的词汇;基于识别到的字符对待识别网页文本进行字符级文本编码,基于分词获得的词汇对待识别网页文本进行词汇级文本编码;步骤S102:构建基于CNN和RCNN的融合模型,包括:步骤S1021:构建第一CNN网络模型,所述CNN网络模型包括卷积层、池化层、全连接层,且所述CNN网络模型为三层并联式CNN网络,即具有三个并联连接的卷积层,且每个卷积层后面都连接一个池化层,所述并联式CNN网络的三层中的每个卷积层的输入都是字符级文本编码,对字符级文本编码进行卷积处理后分别输入对应的池化层;三个池化处理结果共同输入全连接层,在全连接层进行降维处理,得到第一处理结果logits_1;步骤S1022:构建第一RCNN模型,所述第一RCNN模型复用第一CNN网络模型,并在复用的第一CNN网络模型的输入端增加一个循环神经网络(RNN),所述循环神经网络为LSTM模型,即LSTM模型的输入端接收字符级文本编码;LSTM模型的输出端连接到复用的第一CNN网络模型的输入端,第一RCNN网络模型的输出为第二处理结果logits_2;步骤S1023:构建第二CNN网络模型,所述CNN网络模型包括卷积层、池化层、全连接层,且所述CNN网络模型为三层并联式CNN网络,即具有三个并联连接的卷积层,且每个卷积层后面都连接一个池化层,所述并联式CNN网络的三层中的每个卷积层的输入都是词汇级文本编码,对词汇级文本编码进行卷积处理后分别输入对应的池化层;三个池化处理结果共同输入全连接层,在全连接层进行降维处理,得到第三处理结果logits_3;步骤S1024:构建第二RCNN模型,所述第二RCNN模型复用第二CNN网络模型,并在复用的第二CNN网络模型的输入端增加一个循环神经网络(RNN),所述循环神经网络为LSTM模型,即LSTM模型的输入端接收词汇级文本编码;LSTM模型的输出端连接到复用的第二CNN网络模型的输入端,第二RCNN网络模型的输出为第四处理结果logits_4;步骤S1025:构建基于CNN和RCNN的融合模型,所述融合模型包括第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型、融合层及一个Softmax层;所述融合模型的输入为字符级文本编码与词汇级文本编码;所述第一CNN网络模型、第一RCNN模型接收所述字符级文本编码,所述第二CNN网络模型、第二RCNN模型接收所述词汇级文本编码,所述第一CNN网络模型、第一RCNN模型、所述第二CNN网络模型、第二RCNN模型同步、并行进行计算;所述融合层接收第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型的输出数据,对第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型的输出数据确定融合比例,再将按融合比例计算得到的结果传送到Softmax层,进行Softmax处理;步骤S103:输入字符级文本编码样本数据、词汇级文本编码样本数据,对所述基于CNN和RCNN的融合模型进行训练,得到训练好的融合模型;步骤S104:将基于待识别网页文本获得的字符级文本编码、词汇级文本编码输入训练好的融合模型,得到识别结果。进一步地,所述步骤S101中的基于识别到的字符对待识别网页文本进行字符级文本编码,具体方式为:x1’=One_Hot(x);基于分词获得的词汇对待识别网页文本进行词汇级文本编码,具体方式为:x2’=word2vector(x);word2vector是通过批量文本数据提前训练得到的,为分词后获得的每个词汇对应生成编码向量。进一步地,所述步骤S1021:所述并联式CNN网络的三层中的每个卷积层的输入都是字符级文本编码,对字符级文本编码进行卷积处理后分别输入对应的池化层,包括:利用所述并联式CNN网络的三层中的每个卷积层对字符级文本编码进行卷积处理,得到的处理结果分别输入对应的池化层进行池化处理,具体方式为:y1=pool[conv(x1’)]y2=pool[conv(x1’)]y3=pool[conv(x1’)]其中,x1’为字符级文本编码结果,conv为卷积处理,将数据处理成128维的数据,pool为池化处理,y1、y2、y3分别为三个并联的层的处理结果;y=dense(y1+y2+y3)即针对得到的并联输出的三个128维的数据,将其输入全连接层网络中,由全连接层对其进行降维,y值即为第一处理结果logits_1。进一步地,LSTM模型的单元模块的算法为:ft=σ(wf·[ht-1,xt’]+bf)it=σ(wi·[ht-1,xt’]+bi)Ot=σ(wf·[ht-1,xt’]+bf)ht=Ot·tanh(C...

【技术保护点】
1.一种基于CNN和RCNN模型的文本识别方法,其特征在于,包括以下步骤:/n步骤S101:抓取待识别网页文本,识别待识别网页文本中的字符及对网页文本进行分词,获得待识别网页文本的词汇;基于识别到的字符对待识别网页文本进行字符级文本编码,基于分词获得的词汇对待识别网页文本进行词汇级文本编码;/n步骤S102:构建基于CNN和RCNN的融合模型,包括:/n步骤S1021:构建第一CNN网络模型,所述CNN网络模型包括卷积层、池化层、全连接层,且所述CNN网络模型为三层并联式CNN网络,即具有三个并联连接的卷积层,且每个卷积层后面都连接一个池化层,所述并联式CNN网络的三层中的每个卷积层的输入都是字符级文本编码,对字符级文本编码进行卷积处理后分别输入对应的池化层;三个池化处理结果共同输入全连接层,在全连接层进行降维处理,得到第一处理结果

【技术特征摘要】
1.一种基于CNN和RCNN模型的文本识别方法,其特征在于,包括以下步骤:
步骤S101:抓取待识别网页文本,识别待识别网页文本中的字符及对网页文本进行分词,获得待识别网页文本的词汇;基于识别到的字符对待识别网页文本进行字符级文本编码,基于分词获得的词汇对待识别网页文本进行词汇级文本编码;
步骤S102:构建基于CNN和RCNN的融合模型,包括:
步骤S1021:构建第一CNN网络模型,所述CNN网络模型包括卷积层、池化层、全连接层,且所述CNN网络模型为三层并联式CNN网络,即具有三个并联连接的卷积层,且每个卷积层后面都连接一个池化层,所述并联式CNN网络的三层中的每个卷积层的输入都是字符级文本编码,对字符级文本编码进行卷积处理后分别输入对应的池化层;三个池化处理结果共同输入全连接层,在全连接层进行降维处理,得到第一处理结果logits_1;
步骤S1022:构建第一RCNN模型,所述第一RCNN模型复用第一CNN网络模型,并在复用的第一CNN网络模型的输入端增加一个循环神经网络(RNN),所述循环神经网络为LSTM模型,即LSTM模型的输入端接收字符级文本编码;LSTM模型的输出端连接到复用的第一CNN网络模型的输入端,第一RCNN网络模型的输出为第二处理结果logits_2;
步骤S1023:构建第二CNN网络模型,所述CNN网络模型包括卷积层、池化层、全连接层,且所述CNN网络模型为三层并联式CNN网络,即具有三个并联连接的卷积层,且每个卷积层后面都连接一个池化层,所述并联式CNN网络的三层中的每个卷积层的输入都是词汇级文本编码,对词汇级文本编码进行卷积处理后分别输入对应的池化层;三个池化处理结果共同输入全连接层,在全连接层进行降维处理,得到第三处理结果logits_3;
步骤S1024:构建第二RCNN模型,所述第二RCNN模型复用第二CNN网络模型,并在复用的第二CNN网络模型的输入端增加一个循环神经网络(RNN),所述循环神经网络为LSTM模型,即LSTM模型的输入端接收词汇级文本编码;LSTM模型的输出端连接到复用的第二CNN网络模型的输入端,第二RCNN网络模型的输出为第四处理结果logits_4;
步骤S1025:构建基于CNN和RCNN的融合模型,所述融合模型包括第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型、融合层及一个Softmax层;所述融合模型的输入为字符级文本编码与词汇级文本编码;所述第一CNN网络模型、第一RCNN模型接收所述字符级文本编码,所述第二CNN网络模型、第二RCNN模型接收所述词汇级文本编码,所述第一CNN网络模型、第一RCNN模型、所述第二CNN网络模型、第二RCNN模型同步、并行进行计算;所述融合层接收第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型的输出数据,对第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型的输出数据确定融合比例,再将按融合比例计算得到的结果传送到Softmax层,进行Softmax处理;
步骤S103:输入字符级文本编码样本数据、词汇级文本编码样本数据,对所述基于CNN和RCNN的融合模型进行训练,得到训练好的融合模型;
步骤S104:将基于待识别网页文本获得的字符级文本编码、词汇级文本编码输入训练好的融合模型,得到识别结果。


2.如权利要求1所述的基于CNN和RCNN模型的文本识别方法,其特征在于,所述步骤S101中的基于识别到的字符对待识别网页文本x进行字符级文本编码,具体方式为:

x

1

’=One_Hot(x);
其中,One_Hot()为Tensorflow中实现字符级文本编码的函数;
基于分词获得的词汇对待识别网页文本x进行词汇级文本编码,具体方式为:

x

2

’=word2vector(x);

word2vector是通过批量文本数据提前训练得到的,为分词后获得的每个词汇对应生成编码向量。


3.如权利要求2所述的基于CNN和RCNN模型的文本识别方法,其特征在于,所述步骤S1021:所述并联式CNN网络的三层中的每个卷积层的输入都是字符级文本编码,对字符级文本编码进行卷积处理后分别输入对应的池化层,包括:
利用所述并联式CNN网络的三层中的每个卷积层对字符级文本编码进行卷积处理,得到的处理结果分别输入对应的池化层进行池化处理,具体方式为:

y

1

=pool[conv(x

1




)]


y

2

=pool[conv(x

1




)]


y

3

=pool[conv(x

1




)]

其中,x1’为字符级文本编码结果,conv为卷积处理,将数据处理成128维的数据,pool为池化处理,y1、y2、y3分别为三个并联的层的处理结果;

y=dense(y

1

+y

2

+y

3

)

其中,dense()为Tensorflow中实现降维处理的函数;
即针对得到的并联输出的三个128维的数据,将其输入全连接层网络中,由全连接层对其进行降维,y值即为第一处理结果logits_1。


4.如权利要求3所述的基于CNN和RCNN模型的文本识别方法,其特征在于,LSTM模型的单元模块的算法为:

f

t

=σ(w

f

·[h

t-1

,x

t




]+b

f

)


i

t

=σ(w

i

·[h

t-1

,x

t




]+b

i

)








O

t

=σ(w

f

·[h

t-1

,x

t




]+b

f

)


h

t

=O

t

·tanh(C

t

)

其中,ht为LSTM模型的输出,将ht作为得用的第一CNN网络模型的输入,X’t是总的输入
端;Wf,Wi,Wc均为权重;bf,bibc为偏置;tanh为激励函数,σ为sigmod函数运算;ht-1为上
一个细胞的输出,it为输入门,为输入门中决定需要保留的,并用于更新细胞状态的信
息,Ct-1为旧的信息;Ot为输出门,用于产生当前时刻的输出;
Y=CNN(ht)
y值即为第二处理结果logits_2。


5.如权利要求1-4中任一项所述的基于CNN和RCNN模型的文本识别方法,其特征在于,所述步骤S1025中,所述融合层接收第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型的输出数据,对第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型的输出数据确定融合比例,包括:



融合层对第一CNN网络模型、第一RCNN模型、第二CNN网络模型、第二RCNN模型的输出数据进行训练,以确定融合比例,再将融合层的计算结果输入Softmax层,进行以下计算:



其中,W为调节四个模型的权重系数,θ1、θ2、……、θk∈Ren+1,均是模型的调节参数,亦为代价函数的参数,k为网页文本的待识别数;...

【专利技术属性】
技术研发人员:杨星马涛朱东涛樊冯飞周先东王勇马春来王磊朱静轩孟彦
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1