自然语言分词方法、装置、设备及介质制造方法及图纸

技术编号:36000177 阅读:20 留言:0更新日期:2022-12-17 23:17
本申请公开了一种自然语言分词方法、装置、设备及介质,涉及计算机技术领域,包括:对获取的当前待分词文本进行数据清洗得到当前清洗后待分词文本;利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理得到与所述当前清洗后待分词文本对应的第一分词后文本;判断所述第一分词后文本中是否存在目标词语,若是则利用当前HMM模型和当前N

【技术实现步骤摘要】
自然语言分词方法、装置、设备及介质


[0001]本专利技术涉及计算机
,特别涉及自然语言分词方法、装置、设备及介质。

技术介绍

[0002]在税务领域问答对话服务、政策法规颁布等自然语言处理场景中,我们经常会利用NLP(Natural Language Processing,即自然语言处理)技术对场景中产生的语料进行挖掘和研究,以优化服务与政策库标签。现有技术基于某个泛用预设词库进行搜索分词,分词质量较大地依赖于本身词库质量,当待分词文本中存在新词语时,那么分词质量就会大大下降;其次,现有技术中虽然利用了HMM(Hidden Markov Model,即隐马尔可夫模型)模型来对通用分词器进行未切分语料的补救措施,但是由于HMM模型在训练时存在标签偏置问题,导致HMM模型输出的分词结果为局部最优,并没有考虑文本整体,效果不稳定。
[0003]综上可见,如何提高对自然语言分词的效果是本领域有待解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种自然语言分词方法、装置、设备及介质,能够提高对自然语言分词的效果。其具体方案如下:
[0005]第一方面,本申请公开了一种自然语言分词方法,包括:
[0006]获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;
[0007]利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;
[0008]基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前N

GramXGB模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;
[0009]判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。
[0010]可选的,所述利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,包括:
[0011]通过jieba分词器利用预设词库对所述当前清洗后待分词文本进行分词处理和词性标注处理。
[0012]可选的,所述从所述第二分词后文本和所述第三分词后文本确定出目标分词后文本之后,还包括:
[0013]保存所述目标词语至所述预设词库,以得到更新后预设词库;
[0014]当获取下一待分词文本时,则对所述下一待分词文本进行数据清洗,以得到下一清洗后待分词文本,然后通过所述jieba分词器利用所述更新后预设词库对所述下一清洗
后待分词文本进行分词处理和词性标注处理,以得到与所述下一清洗后待分词文本对应的第一分词后文本。
[0015]可选的,所述保存所述目标词语至所述预设词库,以得到更新后预设词库之后,还包括:
[0016]判断所述更新后预设词库是否满足第二预设条件,若满足则利用所述更新后预设词库对所述当前隐马尔可夫模型和所述当前N

GramXGB模型进行更新训练,得到下一隐马尔可夫模型和下一N

GramXGB模型;
[0017]若与所述下一清洗后待分词文本对应的第一分词后文本中存在所述目标词语,则利用所述下一隐马尔可夫模型和所述下一N

GramXGB模型对与所述下一清洗后待分词文本对应的第一分词后文本进行分词处理。
[0018]可选的,所述基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语之后,还包括:
[0019]若不存在则将所述第一分词后文本确定为目标分词后文本;
[0020]相应的,所述判断所述第二分词后文本和所述第三分词后文本是否一致之后,还包括:
[0021]若不一致在则将所述第一分词后文本确定为所述目标分词后文本。
[0022]可选的,所述利用当前隐马尔可夫模型和当前N

GramXGB模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理之前,还包括:
[0023]利用所述预设通用性分词器对第一训练文本进行分词处理和词性标注处理,以得到第二训练文本;
[0024]基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始N

GramXGB模型进行训练,以得到当前隐马尔可夫模型和当前N

GramXGB模型。
[0025]可选的,所述基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始N

GramXGB模型进行训练,包括:
[0026]基于四位序列标注法以及所述第二训练文本中的词语与词性,确定预设分词规则。
[0027]第二方面,本申请公开了一种自然语言分词装置,包括:
[0028]文本清洗模块,用于获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;
[0029]第一分词模块,用于利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;
[0030]第二分词模块,用于基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前N

GramXGB模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;
[0031]目标文本获取模块,用于判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。
[0032]第三方面,本申请公开了一种电子设备,包括:
[0033]存储器,用于保存计算机程序;
[0034]处理器,用于执行所述计算机程序,以实现前述公开的自然语言分词方法的步骤。
[0035]第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的自然语言分词方法的步骤。
[0036]可见,本申请获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前N

GramXGB模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言分词方法,其特征在于,包括:获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前N

GramXGB模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。2.根据权利要求1所述的自然语言分词方法,其特征在于,所述利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,包括:通过jieba分词器利用预设词库对所述当前清洗后待分词文本进行分词处理和词性标注处理。3.根据权利要求2所述的自然语言分词方法,其特征在于,所述从所述第二分词后文本和所述第三分词后文本确定出目标分词后文本之后,还包括:保存所述目标词语至所述预设词库,以得到更新后预设词库;当获取下一待分词文本时,则对所述下一待分词文本进行数据清洗,以得到下一清洗后待分词文本,然后通过所述jieba分词器利用所述更新后预设词库对所述下一清洗后待分词文本进行分词处理和词性标注处理,以得到与所述下一清洗后待分词文本对应的第一分词后文本。4.根据权利要求3所述的自然语言分词方法,其特征在于,所述保存所述目标词语至所述预设词库,以得到更新后预设词库之后,还包括:判断所述更新后预设词库是否满足第二预设条件,若满足则利用所述更新后预设词库对所述当前隐马尔可夫模型和所述当前N

GramXGB模型进行更新训练,得到下一隐马尔可夫模型和下一N

GramXGB模型;若与所述下一清洗后待分词文本对应的第一分词后文本中存在所述目标词语,则利用所述下一隐马尔可夫模型和所述下一N

GramXGB模型对与所述下一清洗后待分词文本对应的第一分词后文本进行分词处理。5.根据权利要求1至4任一项所述的自然语言分词方法,其特征在于,所述基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件...

【专利技术属性】
技术研发人员:丁乐徐煌刘子星王伟
申请(专利权)人:税友信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1