一种分词方法及装置制造方法及图纸

技术编号:31707456 阅读:16 留言:0更新日期:2022-01-01 11:10
本发明专利技术提供一种分词方法及装置,所述方法包括:对输入文本进行数据预处理,得到所述输入文本对应的词向量;利用语义表示提取模型对所述词向量进行语义表示提取,得到所述词向量的语义表示;利用特征增强模型对所述词向量的语义表示进行特征增强处理,得到所述词向量的特征增强处理后的语义表示;依据所述词向量的特征增强处理后的语义表示,进行分词处理。应用本发明专利技术实施例可以优化分词效果。用本发明专利技术实施例可以优化分词效果。用本发明专利技术实施例可以优化分词效果。

【技术实现步骤摘要】
一种分词方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种分词方法及装置。

技术介绍

[0002]分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
[0003]中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
[0004]对于搜索引擎而言,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。
[0005]目前,主流的分词方案是依据jieba分词工具实现,其采用字典和HMM(Hidden Markov Model,隐马尔可夫模型)的算法来实现分词。
[0006]实践发现,jieba分词工具的分词效果很大程度上会依赖词库的完整性,而中文词汇量非常的大,很难做到词库的完备性,且新词收录的及时性也较差,导致中文分词效果较差。

技术实现思路

[0007]本专利技术提供一种分词方法及装置,以优化分词效果。
[0008]根据本专利技术的第一方面,提供一种分词方法,包括:
[0009]对输入文本进行数据预处理,得到所述输入文本对应的词向量;
[0010]利用语义表示提取模型对所述词向量进行语义表示提取,得到所述词向量的语义表示;
[0011]利用特征增强模型对所述词向量的语义表示进行特征增强处理,得到所述词向量的特征增强处理后的语义表示;
[0012]依据所述词向量的特征增强处理后的语义表示,进行分词处理。
[0013]根据本专利技术的第二方面,提供一种分词装置,包括:
[0014]预处理单元,用于对输入文本进行数据预处理,得到所述输入文本对应的词向量;
[0015]提取单元,用于利用语义表示提取模型对所述词向量进行语义表示提取,得到所述词向量的语义表示;
[0016]特征增强单元,用于利用特征增强模型对所述词向量的语义表示进行特征增强处理,得到所述词向量的特征增强处理后的语义表示;
[0017]分词单元,用于依据所述词向量的特征增强处理后的语义表示,进行分词处理。
[0018]应用本专利技术公开的技术方案,通过对输入本文进行数据预处理,得到输入本文对应的词向量,并通过对词向量进行语义表示提取,以及特征增量处理,得到词向量的特征增强处理后的语义表示,进而,依据词向量的特征增强处理后的语义表示,进行分词处理,与传统方案中通过jieba分词工具进行分词的实现方式相比,克服了jieba分词强依赖词库的缺点,优化了分词效果。
附图说明
[0019]图1是本专利技术实施例提供的一种分词方法的流程示意图;
[0020]图2是本专利技术实施例提供的一种依据词向量的特征增强处理后的语义表示进行分词处理的流程示意图;
[0021]图3是本专利技术实施例提供的一种分词模型的结构示意图;
[0022]图4是本专利技术实施例提供的一种分词模型的分词效果示意图;
[0023]图5是本专利技术实施例提供的一种分词装置的结构示意图。
具体实施方式
[0024]为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术实施例中技术方案作进一步详细的说明。
[0025]请参见图1,为本专利技术实施例提供的一种分词方法的流程示意图,如图1所示,该分词方法可以包括以下步骤:
[0026]步骤101、对输入文本进行数据预处理,得到输入文本对应的词向量。
[0027]本专利技术实施例中,为了优化分词效果,在对输入本文进行分词处理之前,可以先对输入文本进行数据预处理,以清除输入文本中的异常数据,如噪声标签、换行符、制表符等不需保留的字符,并将输入文本转换为词向量的形式,得到输入本文对应的词向量。
[0028]示例性的,每个词向量可以随机初始化,例如“好”字用500维词向量表示:
[0029]好:[0.5 0.3...0.2][0030]步骤102、利用语义表示提取模型对所述词向量进行语义表示提取,得到词向量的语义表示。
[0031]步骤103、利用特征增强模型对词向量的语义表示进行特征增强处理,得到词向量的特征增强处理后的语义表示。
[0032]本专利技术实施例中,为了优化分词效果,可以使词向量具有尽量多的语义特征。
[0033]示例性的,可以通过对数据预处理得到的输入文本对应的词向量,利用语义表示提取模型,进行语义表示提取,得到词向量的语义表示,即使词向量包含更多语义特征。
[0034]示例性的,为了进一步优化分词效果,还可以利用特征增强模型对词向量的语义表示进行特征增强处理,得到词向量的特征增强处理后的语义表示,即使词向量进一步包含更多的语义特征。
[0035]步骤104、依据词向量的特征增量处理后的语义表示,进行分词处理。
[0036]本专利技术实施例中,当按照上述步骤中描述的方式得到词向量的特征增量处理后的语义表示时,可以依据词向量的特征增量处理后的语义表示,进行分词处理。
[0037]示例性的,分词结果中可以包括各文字以及标点符号的预测标签及其概率。
[0038]示例性的,预测标签可以包括B、I、E和S,B代表一个词的开头,I代表词的中间位置,E代表词的末尾的字,S代表一个单独的词。
[0039]可见,在图1所示方法流程中,通过对输入本文进行数据预处理,得到输入本文对应的词向量,并通过对词向量进行语义表示提取,以及特征增量处理,得到词向量的特征增强处理后的语义表示,进而,依据词向量的特征增强处理后的语义表示,进行分词处理,与
传统方案中通过jieba分词工具进行分词的实现方式相比,克服了jieba分词强依赖词库的缺点,优化了分词效果。
[0040]在一些实施例中,步骤102中,利用语义表示提取模型对词向量进行语义表示提取,可以包括:
[0041]利用BERT模型或XLNET模型对所述词向量进行语义表示提取。
[0042]示例性的,步骤102中的语义表示提取模型可以包括但不限于BERT(Bidirectional Encoder Representations from Transformer,双向编码表征模型)模型或XLNET模型(一种自回归预训练模型)。
[0043]对于步骤101中得到的输入文本对应的词向量,可以利用BERT模型或XLNET模型进行语义表示提取,得到包含更多语义特征的词向量。
[0044]示例性的,BERT模型采用大规模、与特定自然语言处理任务无关的文本语料进行训练,其目标是学习语言本身应该是什么样的。其预训练过程就是逐渐调整模型参数,使得模型输出的文本语义表示能够刻画语言的本质,便于后续针对具体自然语言处理任务作微调。
[0045]示例性的,BERT的预训练任务可以包括两个:MLM(Masked Language Model,掩蔽语言本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分词方法,其特征在于,包括:对输入文本进行数据预处理,得到所述输入文本对应的词向量;利用语义表示提取模型对所述词向量进行语义表示提取,得到所述词向量的语义表示;利用特征增强模型对所述词向量的语义表示进行特征增强处理,得到所述词向量的特征增强处理后的语义表示;依据所述词向量的特征增强处理后的语义表示,进行分词处理。2.根据权利要求1所述的方法,其特征在于,所述利用语义表示提取模型对所述词向量进行语义表示提取,包括:利用双向编码表征模型BERT模型或XLNET模型对所述词向量进行语义表示提取。3.根据权利要求1所述的方法,其特征在于,所述利用特征增强模型对所述词向量的语义表示进行特征增强处理,包括:利用多层感知器MLP模型对所述词向量的语义表示进行特征增强处理。4.根据权利要求3所述的方法,其特征在于,所述MLP模型包括的隐层数为三层。5.根据权利要求3所述的方法,其特征在于,所述MLP模型的激活函数为leakyrelu函数。6.根据权利要求1所述的方法,其特征在于,所述依据所述词向量的特征增强处理后的语义表示,进行分词处理,包括:依据所述词向量的特征增强处理后的语义表示,利用随机场CRF模型,确定所述词向量对应各标签的分数;依据所述词向量对应各标签的分数,利用归一化指...

【专利技术属性】
技术研发人员:刘万青
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1