本发明专利技术实施例公开了一种文本处理的方法、装置、可读存储介质和电子设备。本发明专利技术实施例通过至少一个处理器解析所述数据,获取至少一个第一文本,对所述至少一个第一文本进行切分,确定第二文本集合,通过所述至少一个处理器获取所述第二文本的特征信息,根据所述第二文本的特征信息确定评价信息,根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。通过上述方法训练处的分词模型可以自动对文本进行准确的切分,减少人力资源的消耗,并且提高了文本分词的准确性。
A text processing method, device, readable storage medium and electronic equipment
【技术实现步骤摘要】
一种文本处理的方法、装置、可读存储介质和电子设备
本专利技术涉及数据处理领域,具体涉及一种文本处理的方法、装置、可读存储介质和电子设备。
技术介绍
随着科技的进步,有关自然语言处理的应用越来越广泛,文本分词是自然语言处理中其他处理的基础,因此文本分词的准确性非常重要。现有技术中通常基于词典的分词方式、或者基于统计/深度学习的分词模型进行文本分词,具体的,基于词典的分词方式需要大量人工维护词典,基于统计/深度学习的分词模型需要大量人工标注过的语料进行训练,上述两种方式都浪费大量的人力资源,并且人工维护或标注时错误率高,影响文本分词的准确性。
技术实现思路
有鉴于此,本专利技术实施例提供了一种文本处理的方法、装置、可读存储介质和电子设备,能够提高文本分词的准确性。第一方面,本专利技术实施例提供了一种文本处理的方法,该方法包括:接收来自于程序调用接口的数据;通过至少一个处理器解析所述数据,获取至少一个第一文本;通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;通过所述至少一个处理器获取所述第二文本的特征信息;所述至少一个处理器根据所述第二文本的特征信息确定评价信息;所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。优选地,该方法还包括:所述至少一个处理器通过训练后的所述分词模型切分第三文本。优选地,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。优选地,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。优选地,所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分关键词,具体包括:所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。优选地,所述响应于所述分数大于设定阈值,则所述切分词为备选切分关键词之后,该方法还包括:响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。优选地,所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词,具体包括:响应于所述第一文本的切分方式包括至少两种;将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。第二方面,本专利技术实施例提供了一种文本处理的装置,该装置包括:接收单元,用于接收来自于程序调用接口的数据;获取单元,用于通过至少一个处理器解析所述数据,获取至少一个第一文本;第一确定单元,用于通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;所述获取单元还用于,通过所述至少一个处理器获取所述第二文本的特征信息;第二确定单元,用于所述至少一个处理器根据所述第二文本的特征信息确定评价信息;第三确定单元,用于所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;第四确定单元,用于所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;处理单元,用于所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。优选地,所述处理单元还用于:所述至少一个处理器通过训练后的所述分词模型切分第三文本。优选地,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。优选地,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。优选地,所述第三确定单元具体用于:所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。优选地,所述第三确定单元具体还用于:响应于所述备选切分关键词大于设定字数,根据临接概率梯度变化率将所述备选切分关键词切分为所述切分关键词。优选地,所述第四确定单元具体用于:响应于所述第一文本的切分方式包括至少两种;将所述每种切分方式对应的最终切分关键词的分数与所述最终切分关键词间的临接概率梯度变化率进行加权处理,确定出最终评价信息;确定所述最终评价信息中最优最终评价信息对应的切分方式为最终切分方式,以及所述最终切分方式对应的最终切分关键词。第三方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。第四方面,本专利技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。本专利技术实施例通过至少一个处理器解析所述数据,获取至少一个第一文本,对所述至少一个第一文本进行切分,确定第二文本集合,通过所述至少一个处理器获取所述第二文本的特征信息,根据所述第二文本的特征信息确定评价信息,根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。通过上述方法训练处的分词模型可以自动对文本进行准确的切分,减少人力资源的消耗,并且提高了文本分词的准确性。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是本专利技术第一实施例的一种文本处理的流程图;图2是本专利技术第一实施例的另一种文本处理的流程图;图3是本专利技术第一实施例的再一种文本处理的流程图;图4是本专利技术第二实施例的应用场景图;图5是本专利技术第三实施例的一种文本处理的装置示意图;图6是本专利技术第四实施例的电子设备的示意图。具体实施方式以下基于实施例对本专利技术公开进行描述,但是本专利技术公开并不仅仅限于这些实施例。在下文对本专利技术公开的细节描述中,详尽描述了本文档来自技高网...
【技术保护点】
1.一种文本处理的方法,其特征在于,该方法包括:/n接收来自于程序调用接口的数据;/n通过至少一个处理器解析所述数据,获取至少一个第一文本;/n通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;/n通过所述至少一个处理器获取所述第二文本的特征信息;/n所述至少一个处理器根据所述第二文本的特征信息确定评价信息;/n所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;/n所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;/n所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。/n
【技术特征摘要】
1.一种文本处理的方法,其特征在于,该方法包括:
接收来自于程序调用接口的数据;
通过至少一个处理器解析所述数据,获取至少一个第一文本;
通过所述至少一个处理器对所述至少一个第一文本进行切分,确定第二文本集合,所述第二文本集合包括至少一个第二文本,所述第二文本为第一文本的一部分;
通过所述至少一个处理器获取所述第二文本的特征信息;
所述至少一个处理器根据所述第二文本的特征信息确定评价信息;
所述至少一个处理器根据所述评价信息确定至少一个所述第二文本中的至少一个切分关键词;
所述至少一个处理器确定所述第一文本的最终切分方式,以及所述最终切分方式对应的最终切分关键词;
所述至少一个处理器根据所述特征信息、所述最终切分方式以及所述最终切分关键词训练分词模型。
2.如权利要求1所述的方法,其特征在于,该方法还包括:
所述至少一个处理器通过训练后的所述分词模型切分第三文本。
3.如权利要求1所述的方法,其特征在于,所述特征信息以及所述第一文本储存在数据库中,所述数据库为图模型。
4.如权利要求1所述的方法,其特征在于,所述特征信息包括所述至少一个第二文本的文本长度、次数、出现频率TF、逆文档概率IDF、左临概率、右临概率、以及临接概率梯度。
5.如权利要求1所述的方法,其特征在于,所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分关键词,具体包括:
所述至少一个处理器根据所述特征信息确定所述至少一个第二文本中的至少一个切分词以及所述至少一个切分词对应的分数;
响应于所述分数大于设定阈值,则所述切分词为备选切分关键词;
响应于所述备选切分关键词小于或等于设定字数,则确定所述备选切分关键词为所述切分关键词。
6.如权利要求5所述的方法,其特征在于,所述响应于所述分数大于设定阈值,则所述切分词为备选切分关键词之后,该方法还包括:
响应于所述备选切分关键词大...
【专利技术属性】
技术研发人员:李超,
申请(专利权)人:拉扎斯网络科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。