用于实现中文分词与词性标注的方法、介质及电子设备技术

技术编号:36893012 阅读:15 留言:0更新日期:2023-03-15 22:06
本申请实施例提供一种用于实现中文分词与词性标注的方法、介质及电子设备,所述方法包括:接收来自于客户端的分词及词性标注请求,其中,所述分词及词性标注请求至少用于携带待分词的文本和用户的配置信息;至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果;向所述客户端提供所述分词及词性标注结果。本申请的实施例可以实现在高精度的分词及词性标注的前提下,更便于用户灵活配置,提供适应不同场景、满足不同需求的中文分词与词性标注结果,提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
用于实现中文分词与词性标注的方法、介质及电子设备


[0001]本申请涉及自然语言处理领域,具体而言本申请实施例涉及用于实现中文分词与词性标注的方法、介质及电子设备。

技术介绍

[0002]分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程。词性标注是指为自然语言文本中的每个词汇赋予一个词性的过程。分词与词性标注是自然语言处理中句法解析、语义分析、信息检索等其他任务的基础,分词与词性标注的效果对后续任务的结果有明显的影响。
[0003]基于词表与统计的方法,是中文分词与词性标注常使用的实现方法。但中文的语义较为复杂,同一个词语可能会存在着不同的语义,也就存在着不同的词性;另外,在不同的语境下,相同的文本序列会出现不同的分词结果。所以词表的使用有很多语义上的限制。开源的中文分词与词性标注训练数据领域较为单一,常见的是单一的新闻领域数据,并且数据标注缺少严格的语义一致性、规范统一性。
[0004]目前有很多针对应用工程的分词工具,使用方式固定,应用场景范围窄,缺少灵活的可配置性,需要用户有一定的开发能力。

技术实现思路

[0005]本申请实施例的目的在于提供一种用于实现中文分词与词性标注的方法、介质及电子设备,本申请的实施例可以实现在高精度的分词及词性标注的前提下,更便于用户灵活配置,提供适应不同场景、满足不同需求的中文分词与词性标注结果,提升用户体验。
[0006]第一方面,本申请实施例提供一种用于实现中文分词与词性标注的方法,应用于云端,所述方法包括:接收来自于客户端的分词及词性标注请求,其中,所述分词及词性标注请求至少用于携带待分词的文本和用户的配置信息;至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果,其中,所述目标分词及词性标注模型具备同时挖掘分词结果和词性标注结果的功能;向所述客户端提供所述分词及词性标注结果。
[0007]本申请的一些实施例通过客户端与云端协作的方式来完成针对待分词的文本的分词以及词性标注操作,充分利用双方优势,即客户端对场景更加了解,云端计算存储能力更强大进而提升对待分词的文本的分词及词性标注结果的准确性。
[0008]在一些实施例中,所述配置信息的类型包括:与所述待分词的文本对应的领域、是否添加自定义词表、是否使用实体增强词性以及分词粒度中的至少一个。
[0009]本申请的一些实施例中通过客户端用户输入的配置信息,得到与待分词的文本对应的领域、用户自定义词表以及分词处理的粒度等配置信息,进而可以使得云端根据这些配置信息更好的完成对待分词的文本的分词以及词性标注的操作。
[0010]在一些实施例中,在所述至少根据所述配置信息以及目标分词及词性标注模型对
所述待分词的文本进行处理之前,所述方法还包括:解析所述配置信息得到与所述待分词的文本对应的目标领域以及自定义词表;从多领域知识词表中选择属于所述目标领域的词表,得到目标词表,其中,所述多领域知识词表是基于知识图谱抽取多领域的专业知识词表得到的,所述知识图谱部署在所述云端;所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:根据所述目标词表、所述自定义词表以及所述目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果。
[0011]本申请的一些实施例的云端通过解析客户端输入的配置信息,得到专业领域词表以及自定义词表进而完成对待分词的文本的分词及词性标注。
[0012]在一些实施例中,在所述根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:获取标注数据,其中,所述标注数据是通过对收集的多领域的待标注数据进行标注处理得到的;根据所述标注数据对分词及词性标注模型进行训练,得到所述目标分词及词性标注模型。
[0013]本申请的一些实施例通过收集不同领域的数据作为初始待标注数据,包括新闻领域、文学领域、体育领域、财经金融领域等多个领域,这样会提高领域的适应性,提高训练模型的数据适应性。
[0014]在一些实施例中,所述获取标注数据,包括:根据标注规范对所述多领域的待标注数据进行标注,得到所述标注数据,其中,所述标注规范用于定义分词标注以及词性标注的规则,所述标注规范可被调整。
[0015]本申请的一些实施例通过具有专业知识的人员制定统一的数据标注规范来完成数据标注,该标注规范包括分词标注方法,词性标注方法等,此标注规范会随着标注数据的增多,不同语义情况的出现而随时进行优化修正,保证标注的统一性与专业性,进而提升训练得到的模型的效果。
[0016]在一些实施例中,所述根据标注规范对所述多领域的待标注数据进行标注得到所述标注数据,包括:根据所述标注规范对所述多领域的待标注数据进行标注,得到初始标注结果数据;检测所述初始标注结果数据得到检测结果,并反馈所述检测结果,以进一步根据所述检测结果对所述初始标注结果数据进行修正;接收对所述初始标注结果数据进行修改后的数据,得到所述标注数据。
[0017]本申请的一些实施例提供的标注数据会经过标注数据的检测程序,检查标注人员的标注结果是否存在明显的问题,检测程序会检查格式问题、词性错误、相同文本序列的不同标注结果、标注一致性等,并将检查结果反馈给标注人员,待标注人员进行二次检查、修正后提交到训练数据集合中,提升得到标注数据的准确性和标注的一致性。
[0018]在一些实施例中,所述检测所述初始标注结果数据得到检测结果,包括:对所述初始标注结果数据进行格式、词性、相同文本序列的不同标注结果以及标注一致性方面进行检测,获取所述检测结果。
[0019]本申请的一些实施例需要检查初始标注结果存在的格式问题、词性错误、相同文本序列的不同标注结果、标注一致性等,提升得到的标注数据的标注效果,进而提升训练模型的效果。
[0020]在一些实施例中,在所述根据所述标注数据对分析及词性标注模型进行训练得到所述目标分词及词性标注模型之后,所述方法还包括:发布所述目标分词及词性标注模型,
以供不同客户端调用。
[0021]本申请的一些实施例通过即时发布训练好的分词及词性标注模型,使得不同客户第一时间可以使用模型。
[0022]在一些实施例中,所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:根据实体词典并通过所述目标分词及词性标注模块对所述待分词的文本进行词语切分,并将切分得到的词性设置为与实体类别对应的词性,得到初始分词及词性标注结果;根据自定义词表对所述初始分词及词性标注结果进行处理,得到修正结果;根据所述目标词表对所述修正结果进行处理,得到所述分词及词性标注结果。
[0023]在一些实施例中,所述多领域的待标注数据为满足语义统一性且满足词语长度的一致性的数据;所述多领域的待标注数据还包括对知识词表中的词语的标注数据,其中,所述知识词表是通过知识图谱进行词语抽取得到的。
[0024]本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于实现中文分词与词性标注的方法,应用于云端,所述方法包括:接收来自于客户端的分词及词性标注请求,其中,所述分词及词性标注请求至少用于携带待分词的文本和用户的配置信息;至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果,其中,所述目标分词及词性标注模型具备同时挖掘分词结果和词性标注结果的功能;向所述客户端提供所述分词及词性标注结果。2.如权利要求1所述的方法,其特征在于,所述配置信息的类型包括:与所述待分词的文本对应的领域、是否添加自定义词表、是否使用实体增强词性以及分词粒度中的至少一个。3.如权利要求2所述的方法,其特征在于,在所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:解析所述配置信息得到与所述待分词的文本对应的目标领域、自定义词表以及本次的分词粒度;从多领域知识词表中选择属于所述目标领域的词表,得到目标词表,其中,所述多领域知识词表是基于知识图谱抽取多领域的专业知识词表得到的,所述知识图谱部署在所述云端;所述至少根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理,包括:根据所述目标词表、所述自定义词表、所述本次的分词粒度以及所述目标分词及词性标注模型对所述待分词的文本进行处理,得到分词及词性标注结果。4.如权利要求1所述的方法,其特征在于,在所述根据所述配置信息以及目标分词及词性标注模型对所述待分词的文本进行处理之前,所述方法还包括:获取标注数据,其中,所述标注数据是通过对收集的多领域的待标注数据进行标注处理得到的;根据所述标注数据对分词及词性标注模型进行训练,得到所述目标分词及词性标注模型。5.如权利要求4所述的方法,其特征在于,所述获取标注数据,包括:根据标注规范对所述多领域的待标注数据进行标注,得到所述标注数据,其中,所述标注规范用于定义分词标注以及词性标注的规则,所述标注规范可被调整。6.如权利要求4所述的...

【专利技术属性】
技术研发人员:简仁贤刘影
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1