一种分词方法及装置制造方法及图纸

技术编号：31707456 阅读：16 留言：0更新日期：2022-01-01 11:10

本发明专利技术提供一种分词方法及装置，所述方法包括：对输入文本进行数据预处理，得到所述输入文本对应的词向量；利用语义表示提取模型对所述词向量进行语义表示提取，得到所述词向量的语义表示；利用特征增强模型对所述词向量的语义表示进行特征增强处理，得到所述词向量的特征增强处理后的语义表示；依据所述词向量的特征增强处理后的语义表示，进行分词处理。应用本发明专利技术实施例可以优化分词效果。用本发明专利技术实施例可以优化分词效果。用本发明专利技术实施例可以优化分词效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种分词方法及装置

[0001]本专利技术涉及数据处理
，尤其涉及一种分词方法及装置。

技术介绍

[0002]分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
[0003]中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。
[0004]对于搜索引擎而言，中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。从定性分析来说，搜索引擎的分词算法不同，词库的不同都会影响页面的返回结果。
[0005]目前，主流的分词方案是依据jieba分词工具实现，其采用字典和HMM(Hidden Markov Model，隐马尔可夫模型)的算法来实现分词。
[0006]实践发现，jieba分词工具的分词效果很大程度上会依赖词库的完整性，而中文词汇量非常的大，很难做到词库的完备性，且新词收录的及时性也较差，导致中文分词效果较差。

技术实现思路

[0007]本专利技术提供一种分词方法及装置，以优化分词效果。
[0008]根据本专利技术的第一方面，提供一种分词方法，包括：
[0009]对输入文本进行数据预处理，得到所述输入文本对应的词向量；
[0010]利用语义表示提取模型对所述词向量进行语义表示提取，得到所述词向量的语义表示；
[0011]利用特征增强模型对所述词向量的语义表示进行特征增强处理，得到所述词向量的特征增强处理后的语义表示；
[0012]依据所述词向量的特征增强处理后的语...

【技术保护点】

【技术特征摘要】
1.一种分词方法，其特征在于，包括：对输入文本进行数据预处理，得到所述输入文本对应的词向量；利用语义表示提取模型对所述词向量进行语义表示提取，得到所述词向量的语义表示；利用特征增强模型对所述词向量的语义表示进行特征增强处理，得到所述词向量的特征增强处理后的语义表示；依据所述词向量的特征增强处理后的语义表示，进行分词处理。2.根据权利要求1所述的方法，其特征在于，所述利用语义表示提取模型对所述词向量进行语义表示提取，包括：利用双向编码表征模型BERT模型或XLNET模型对所述词向量进行语义表示提取。3.根据权利要求1所述的方法，其特征在于，所述利用特征增强模型对所述词向量的语义表示进行特征增强处理，包括：利用多层感知器MLP模型对所述词向量的语义表示进行特征增强处理。4.根据权利要求3所述的方法，其特征在于，所述MLP模型包括的隐层数为三层。5.根据权利要求3所述的方法，其特征在于，所述MLP模型的激活函数为leakyrelu函数。6.根据权利要求1所述的方法，其特征在于，所述依据所述词向量的特征增强处理后的语义表示，进行分词处理，包括：依据所述词向量的特征增强处理后的语义表示，利用随机场CRF模型，确定所述词向量对应各标签的分数；依据所述词向量对应各标签的分数，利用归一化指...

【专利技术属性】
技术研发人员：刘万青，
申请(专利权)人：新华三大数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人