一种基于综合表示嵌入的文本分类方法技术

技术编号:33307819 阅读:40 留言:0更新日期:2022-05-06 12:18
本发明专利技术公开了一种基于综合表示嵌入的文本分类方法,包括以下步骤:将句子进行文本分词;获得文本分词的综合表示嵌入;训练基于综合表示嵌入的文本句子分类模型;使用训练好的文本分类模型对待分类文本句子进行分类;所述的综合表示嵌入包括文本的词表达嵌入、词性表达嵌入和上下文表达嵌入;所述的文本分类模型包括输入层,处理层和输出层,所述的输入层接收输入,输入为文本句子的综合表示嵌入,处理层依序为卷积层、最大池化层、第一全连接层、LSTM层、第二全连接层和softmax分类层,输出层输出分类结果。本发明专利技术方法充分利用文本分词的多种属性嵌入,使得分类效果更好,简单的分类步骤,使得分类速度更快。使得分类速度更快。使得分类速度更快。

【技术实现步骤摘要】
一种基于综合表示嵌入的文本分类方法


[0001]本专利技术属于文本分类
,尤其涉及一种基于综合表示的文本分类方法。

技术介绍

[0002]随着技术的发展,将自然语言文档自动分类成若干主题的类别这一项工作作为新兴的学科发展了起来,称为自动文本分类(Automatic Text Classification),为简洁起见,本文将自动文本分类简称为文本分类(Text Classification)。文本分类的主要任务是在给定的分类体系下,根据文本的内容自动地确定与文本关联的类别。文本分类技术不仅仅解决了用户准确查找数据的需求,也在很大程度上降低了网络信息的杂乱特征。所以,文本分类技术的出现受到了计算机和自动化领域内专家、学者和工程师们的广泛重视。
[0003]文本分类被认识为许多技术的基础,如搜索引擎、信息过滤、情报分析、情感分析,等等。因此,文本分类技术有着广泛的应用前景,是一项具有较大研究价值的关键性技术。
[0004]事实上,文本分类一直被作为一个基本科学问题,被人工智能和语言学学者研究,如何提高文本分类的准确性和文本分类的速度,一直是作为研究的评价指标,这也指导着相关的学术界和工程界不停地寻找新的分类方法。

技术实现思路

[0005]有鉴于此,提供一种高效且准确的文本分类方法,是解决现有技术问题的关切点。本专利技术的目的在于提供一种基于综合表示的文本分类方法,所述方法充分利用文本分词的多种属性嵌入,使得分类效果更好,简单的分类步骤,使得分类速度更快。
[0006]本专利技术的目的是这样实现的,一种基于综合表示的文本分类方法,包括以下步骤:
[0007]将句子进行文本分词;
[0008]获得文本分词的综合表示嵌入;
[0009]训练基于综合表示嵌入的文本句子分类模型;
[0010]使用训练好的文本分类模型对待分类文本句子进行分类;
[0011]所述的综合表示嵌入包括文本的词表达嵌入、词性表达嵌入和上下文表达嵌入;
[0012]所述的文本分类模型包括输入层,处理层和输出层,所述的输入层接收输入,输入为文本句子的综合表示嵌入,处理层依序为卷积层、最大池化层、第一全连接层、LSTM层、第二全连接层和softmax分类层,输出层输出分类结果。
[0013]具体地,所述的获得文本分词的综合表示嵌入,包括以下步骤:
[0014]获取文本分词基于词典索引的词嵌入向量Embed1(IndexD(C
i
)),其中C
i
为文本分词,IndexD为文本分词的词典索引,Embed1表示基于词典索引的词嵌入;
[0015]获取文本分词基于词性索引的词嵌入向量Embed2(IndexP(P(C
i
))),P为获取文本分词的词性,IndexP为文本分词的词性索引,Embed2表示基于词性索引的词嵌入;
[0016]将同一文本分词基于词典索引的词嵌入向量和基于词性索引的词嵌入向量进行拼接:Embed1(IndexD(C
i
))||Embed2(IndexP(P(C
i
)));
[0017]将句子中的文本分词的拼接词向量分别以顺序和反序的方式输入双向长短期记忆神经网络模型中,分别获得正序的词向量front(0)至front(n),以及反序的词向量back(0)至back(n),0至n分别表示句子的n+1个分词;
[0018]将正序的词向量和反序的词向量进行拼接,拼接方式为front(t)连接back(n

t),由此得到vec(0)至vec(n)的综合表示词向量。
[0019]更进一步地在所述的文本句子分类模型中,将文本分词的综合表示嵌入按序输入输入层,所述的卷积层使用综合表示嵌入的维度为宽度的卷积核来获取不同的特征向量,所述的最大池化层用于对卷积层中的特征向量进行选取,在所述的第二全连接层中,对输入向量进行Dropout操作正则化,在softmax分类层中采用softmax分类器进行分类。
附图说明
[0020]图1本专利技术基于综合表示的文本分类方法流程示意图;
[0021]图2本专利技术文本分类模型的结构示意图。
具体实施方式
[0022]下面结合附图对本专利技术作进一步的说明,但不以任何方式对本专利技术加以限制,基于本专利技术教导所作的任何变换或替换,均属于本专利技术的保护范围。
[0023]众所周知,深度学习等人工技术在文本分类应用中发挥着非常重要的作用,但是这一类的方法都要有一个基本问题,就是如何将文字语言等人类理解的信息转化为计算机模型所能理解的信息。在文本处理中,文本建模涉及到词、句子和文档等不同粒度的文本。词、句子和文档三者之间存在层次递进关系,它们的表示学习方法既有所区别又相互联系。词的表示学习是文本建模的基础,句子的表示学习建立在词的基础上,通过组合词的语义得到句子的语义表示。而对于文档的表示学习,既可以直接通过组合词的语义得到文档整体的语义。,也可以通过层次建模的方法,先学习句子的语义表示,然后通过组合句子的语义得到文档的语义表示。最基本的词向量研究是对词的语义进行向量建模,而句子和文档的建模一般涉及到具体的任务。
[0024]所以本专利技术实施例提供了一种综合表示嵌入的词向量表示方式,以此来实现一种基于综合表示的文本分类方法,如图1所示,包括以下步骤:
[0025]将句子进行文本分词;
[0026]获得文本分词的综合表示嵌入;
[0027]训练基于综合表示嵌入的文本句子分类模型;
[0028]使用训练好的文本分类模型对待分类文本句子进行分类;
[0029]所述的综合表示嵌入包括文本的词表达嵌入、词性表达嵌入和上下文表达嵌入;
[0030]如图2所示,所述的文本分类模型包括输入层,处理层和输出层,所述的输入层接收输入,输入为文本句子的综合表示嵌入,处理层依序为卷积层、最大池化层、第一全连接层、LSTM层、第二全连接层和softmax分类层,输出层输出分类结果。
[0031]具体地,所述的获得文本分词的综合表示嵌入,包括以下步骤:
[0032]获取文本分词基于词典索引的词嵌入向量Embed1(IndexD(C
i
)),其中C
i
为文本分词,IndexD为文本分词的词典索引,Embed1表示基于词典索引的词嵌入;
[0033]获取文本分词基于词性索引的词嵌入向量Embed2(IndexP(P(C
i
))),P为获取文本分词的词性,IndexP为文本分词的词性索引,Embed2表示基于词性索引的词嵌入;
[0034]将同一文本分词基于词典索引的词嵌入向量和基于词性索引的词嵌入向量进行拼接:Embed1(IndexD(C
i
))||Embed2(IndexP(P(C
i
)));
[0035]将句子中的文本分词的拼接词向量分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于综合表示嵌入的文本分类方法,其特征在于,包括以下步骤:将句子进行文本分词;获得文本分词的综合表示嵌入;训练基于综合表示嵌入的文本句子分类模型;使用训练好的文本分类模型对待分类文本句子进行分类;所述的综合表示嵌入包括文本的词表达嵌入、词性表达嵌入和上下文表达嵌入;所述的文本分类模型包括输入层,处理层和输出层,所述的输入层接收输入,输入为文本句子的综合表示嵌入,处理层依序为卷积层、最大池化层、第一全连接层、LSTM层、第二全连接层和softmax分类层,输出层输出分类结果。2.根据权利要求1所述的一种基于综合表示嵌入的文本分类方法,其特征在于,所述的获得文本分词的综合表示嵌入,包括以下步骤:获取文本分词基于词典索引的词嵌入向量Embed1(IndexD(C
i
)),其中C
i
为文本分词,IndexD为文本分词的词典索引,Embed1表示基于词典索引的词嵌入;获取文本分词基于词性索引的词嵌入向量Embed2(IndexP(P(C
i
))),P为获取文本分词的词性,IndexP为文本分词的词性索引,Embed2表示基于...

【专利技术属性】
技术研发人员:刘聆彭波曹丹
申请(专利权)人:长沙一扬电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1