本说明书公开了一种文本数据的分词方法、装置及电子设备。该分词方法包括:通过通用分词模型对文本数据进行分词获得通用分词结果;以及获取文本数据所属业务领域的业务领域专有名词;从而根据该业务领域专有名词和通用分词结果对文本数据进行分词,获得文本数据的领域分词结果。在该技术方案中,通过分词模型和业务领域专有名词的结合,针对不同领域的领域分词只需获取对应领域的领域专有名词即可,从而可以由了一个模型实现多个领域的领域分词,解决了现有技术中多领域分词需要多个领域分词模型导致的成本过高的技术问题,降低了模型训练和模型维护成本。
A word segmentation method, device and electronic equipment for text data
【技术实现步骤摘要】
一种文本数据的分词方法、装置及电子设备
本说明书涉及软件
,特别涉及一种文本数据的分词方法、装置及电子设备。
技术介绍
现有技术中,不同领域往往涉及不同的领域专有名词,如花呗、借呗、相互宝、网商贷、淘票票、周周乐、飞猪等,对分词粒度的需求也不尽相同,往往需要对每个不同的领域训练专有的分词模型,来实现不同领域内的领域分词。
技术实现思路
本说明书实施例提供一种文本数据的分词方法、装置及电子设备,用于降低多领域文本数据分词的成本。第一方面,本说明书实施例提供一种文本数据的分词方法,该方法包括:通过通用分词模型对文本数据进行分词获得通用分词结果;获取所述文本数据所属业务领域的业务领域专有名词;根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果。可选的,该分词方法还包括:将所述领域分词结果中的目标分词替换为所述业务领域中的标准词,其中,在所述业务领域内所述目标分词为所述标准词的同义词;获得替换后的所述领域分词结果作为领域同义分词结果。可选的,所述业务领域专有名词采用双数组树结构存储,所述双数组树的每一个节点存储一个字,所述双数组树的一个根节点到叶节点上的所有字构成一个专有名词。可选的,在根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果之前,所述方法还包括:根据预设的修复规则对所述通用分词结果进行修正,其中,所述修复规则包括词语之间的词性匹配规则和/或正则匹配规则;并通过修正结果更新所述通用分词结果。可选的,根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果,包括:判断所述通用分词结果中相邻的通用分词是否与所述业务领域专有名词中的专有名词匹配;若判断结果为是,将所述通用分词结果中所述相邻的通用分词合并为所述专有名词,获得所述领域分词结果。可选的,所述业务领域专有名词中包含所述业务领域专有的标准词和所述标准词的同义词。第二方面,本说明书实施例提供一种文本数据的分词装置,该装置包括:通用分词单元,用于通过通用分词模型对文本数据进行分词获得通用分词结果;获取单元,用于获取所述文本数据所属业务领域的业务领域专有名词,其中,所述业务领域专有名词采用双数组树结构存储;领域分词单元,用于根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果。可选的,所述装置还包括:同义分词单元,用于将所述领域分词结果中的目标分词替换为所述业务领域中的标准词,其中,在所述业务领域内所述目标分词为所述标准词的同义词;获得替换后的所述领域分词结果作为领域同义分词结果。可选的,所述业务领域专有名词采用双数组树结构存储,所述双数组树的每一个节点存储一个字,所述双数组树的一个根节点到叶节点上的所有字组成一个专有名词。可选的,所述装置还包括:修正单元,用于在根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果之前,根据预设的修复规则对所述通用分词结果进行修正,其中,所述修复规则包括词语之间的词性匹配规则和/或正则匹配规则;并通过修正结果更新所述通用分词结果。可选的,所述领域分词单元用于:判断所述通用分词结果中相邻的通用分词是否与所述业务领域专有名词中的专有名词匹配;若判断结果为是,将所述通用分词结果中所述相邻的通用分词合并为所述专有名词,获得所述领域分词结果。可选的,所述业务领域专有名词中包含所述业务领域专有的标准词和所述标准词的同义词。第三方面、本说明书实施例一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面任一所述方法的步骤。第四方面、本说明书实施例一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如第一方面任一所述方法对应的操作指令。本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:本说明书实施例提供一种分词方法,该分词方法通过通用分词模型对文本数据进行分词获得通用分词结果;获取文本数据所属业务领域的业务领域专有名词;根据该业务领域专有名词和通用分词结果对文本数据进行分词,获得文本数据的领域分词结果。通过分词模型和业务业领域专业名词的结合,针对不同领域的领域分词只需获取对应领域的领域专有名词即可,从而可以由了一个模型实现多个领域的领域分词,解决了现有技术中多领域分词需要多个领域分词模型导致的成本过高的技术问题,降低了模型训练和模型维护成本。附图说明为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书实施例提供的一种分词方法的流程图;图2为本说明书实施例提供的双数组树的存储示意图;图3为本说明书实施例提供的一种分词装置的示意图;图4为本说明书实施例提供的一种电子设备的示意图。具体实施方式为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。在本说明书实施例提供一种文本数据的分词方法,用于实现一个模型对多个领域进行领域分词,以解决现有技术中多领域分词需要多个领域分词模型导致的成本过高的技术问题,降低模型训练和模型维护成本。下面结合附图对本说明书实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。实施例本实施例提供一种分词器,适用于涉及多领域场景下的分词,如搜索场景下的分词。该分词器包括:通用分词模型和n个专有名词存储模块,n≥2。其中,通用分词模型采用常规语料库中的语料作为训练样本进行分词模型训练,适用于各个业务领域内普通语料的分词。每个专有名词存储模块存储一个业务领域的专有名词和该业务领域对应的唯一业务领域标识即业务领域ID(Identitydocument,唯一编码),通过该业务领域ID可以查找获得该业务领域对应的专有名词。基于上述分词器,本实施例提供一种文本数据的分词方法,请参考图1,该方法包括:S11:通过通用分词模型对文本数据进行分词获得通用分词结果。其中,通用分词模型可以使用已有的通用分词模型,无需再单独训练。S本文档来自技高网...
【技术保护点】
1.一种文本数据的分词方法,该方法包括:/n通过通用分词模型对文本数据进行分词获得通用分词结果;/n获取所述文本数据所属业务领域的业务领域专有名词;/n根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果。/n
【技术特征摘要】
1.一种文本数据的分词方法,该方法包括:
通过通用分词模型对文本数据进行分词获得通用分词结果;
获取所述文本数据所属业务领域的业务领域专有名词;
根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果。
2.如权利要求1所述的方法,所述方法还包括:
将所述领域分词结果中的目标分词替换为所述业务领域中的标准词,其中,在所述业务领域内所述目标分词为所述标准词的同义词;
获得替换后的所述领域分词结果作为领域同义分词结果。
3.如权利要求1所述的方法,所述业务领域专有名词采用双数组树结构存储,所述双数组树的每一个节点存储一个字,所述双数组树的一个根节点到叶节点上的所有字构成一个专有名词。
4.如权利要求1所述的方法,在根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果之前,所述方法还包括:
根据预设的修复规则对所述通用分词结果进行修正,其中,所述修复规则包括词语之间的词性匹配规则和/或正则匹配规则;
并通过修正结果更新所述通用分词结果。
5.如权利要求1所述的方法,根据所述业务领域专有名词和所述通用分词结果对所述文本数据进行分词,获得所述文本数据的领域分词结果,包括:
判断所述通用分词结果中相邻的通用分词是否与所述业务领域专有名词中的专有名词匹配;
若判断结果为是,将所述通用分词结果中所述相邻的通用分词合并为所述专有名词,获得所述领域分词结果。
6.如权利要求1~5任一所述方法,所述业务领域专有名词中包含所述业务领域专有的标准词和所述标准词的同义词。
7.一种文本数据的分词装置,该装置包括:
通用分词单元,用于通过通用分词模型对文本数据进行分词获得通用分词结果;
获取单元,用于获取所述文本数据所属业务领域的业务领域专有名词,其中,所述业务领域专有名词...
【专利技术属性】
技术研发人员:刘凡,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。