自然语言分词方法、装置、设备及介质制造方法及图纸

技术编号：36000177 阅读：20 留言：0更新日期：2022-12-17 23:17

本申请公开了一种自然语言分词方法、装置、设备及介质，涉及计算机技术领域，包括：对获取的当前待分词文本进行数据清洗得到当前清洗后待分词文本；利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理得到与所述当前清洗后待分词文本对应的第一分词后文本；判断所述第一分词后文本中是否存在目标词语，若是则利用当前HMM模型和当前N

全部详细技术资料下载

【技术实现步骤摘要】
自然语言分词方法、装置、设备及介质

[0001]本专利技术涉及计算机
，特别涉及自然语言分词方法、装置、设备及介质。

技术介绍

[0002]在税务领域问答对话服务、政策法规颁布等自然语言处理场景中，我们经常会利用NLP(Natural Language Processing，即自然语言处理)技术对场景中产生的语料进行挖掘和研究，以优化服务与政策库标签。现有技术基于某个泛用预设词库进行搜索分词，分词质量较大地依赖于本身词库质量，当待分词文本中存在新词语时，那么分词质量就会大大下降；其次，现有技术中虽然利用了HMM(Hidden Markov Model，即隐马尔可夫模型)模型来对通用分词器进行未切分语料的补救措施，但是由于HMM模型在训练时存在标签偏置问题，导致HMM模型输出的分词结果为局部最优，并没有考虑文本整体，效果不稳定。
[0003]综上可见，如何提高对自然语言分词的效果是本领域有待解决的问题。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于提供一种自然语言分词方法、装置、设备及介质，能够提高对自然语言分词的效果。其具体方案如下：
[0005]第一方面，本申请公开了一种自然语言分词方法，包括：
[0006]获取当前待分词文本，并对所述当前待分词文本进行数据清洗，以得到当前清洗后待分词文本；
[0007]利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理，以得到与所述当前清洗后待分词文本对应的第一分词后文本；
[0008...

【技术保护点】

【技术特征摘要】
1.一种自然语言分词方法，其特征在于，包括：获取当前待分词文本，并对所述当前待分词文本进行数据清洗，以得到当前清洗后待分词文本；利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理，以得到与所述当前清洗后待分词文本对应的第一分词后文本；基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语，若存在则利用当前隐马尔可夫模型和当前N
‑
GramXGB模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理，以得到对应的第二分词后文本和第三分词后文本；判断所述第二分词后文本和所述第三分词后文本是否一致，若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。2.根据权利要求1所述的自然语言分词方法，其特征在于，所述利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理，包括：通过jieba分词器利用预设词库对所述当前清洗后待分词文本进行分词处理和词性标注处理。3.根据权利要求2所述的自然语言分词方法，其特征在于，所述从所述第二分词后文本和所述第三分词后文本确定出目标分词后文本之后，还包括：保存所述目标词语至所述预设词库，以得到更新后预设词库；当获取下一待分词文本时，则对所述下一待分词文本进行数据清洗，以得到下一清洗后待分词文本，然后通过所述jieba分词器利用所述更新后预设词库对所述下一清洗后待分词文本进行分词处理和词性标注处理，以得到与所述下一清洗后待分词文本对应的第一分词后文本。4.根据权利要求3所述的自然语言分词方法，其特征在于，所述保存所述目标词语至所述预设词库，以得到更新后预设词库之后，还包括：判断所述更新后预设词库是否满足第二预设条件，若满足则利用所述更新后预设词库对所述当前隐马尔可夫模型和所述当前N
‑
GramXGB模型进行更新训练，得到下一隐马尔可夫模型和下一N
‑
GramXGB模型；若与所述下一清洗后待分词文本对应的第一分词后文本中存在所述目标词语，则利用所述下一隐马尔可夫模型和所述下一N
‑
GramXGB模型对与所述下一清洗后待分词文本对应的第一分词后文本进行分词处理。5.根据权利要求1至4任一项所述的自然语言分词方法，其特征在于，所述基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件...

【专利技术属性】
技术研发人员：丁乐，徐煌，刘子星，王伟，
申请(专利权)人：税友信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人