文本处理方法、文本处理装置及计算机可读存储介质制造方法及图纸

技术编号:38758072 阅读:10 留言:0更新日期:2023-09-10 09:43
本发明专利技术公开了文本处理方法、文本处理装置及计算机可读存储介质,其中,所述文本处理方法包括以下步骤:根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。本发明专利技术通过爬虫爬取大量数据进行LDA主题建模学习,基于无监督学习算法构建标签体系,再根据具体标签体系以及需求,通过Mybert模型自动为文本打上相应的标签,解决了基于人工标注的方式导致标签挖掘效率低的问题。式导致标签挖掘效率低的问题。式导致标签挖掘效率低的问题。

【技术实现步骤摘要】
文本处理方法、文本处理装置及计算机可读存储介质


[0001]本专利技术涉及数据表示领域,尤其涉及文本处理方法、文本处理装置及计算机可读存储介质。

技术介绍

[0002]为体现文章的特征,通常需要挖掘文章相应的主题标签,以便基于挖掘出的主题标签对文章进行分类管理、查询或推送。例如文章中出现城管、市容等内容时,可以为其打上“城市、行政、街道管理以及城乡”等标签。
[0003]在相关的文本的标注方法中,通常在已构建好的标签体系的基础上,基于人工标注的方式进行的对目标文本进行标注。然而,当标签体系的标签无法表征当前的文本时,需要人工花费较多时间检索相关的数据,并在标签体系中添加新的标签。而在需要对大量的文章挖掘相应的主题标签时,当前的基于人工标注的方式存在标注周期长的缺陷,导致文本的标签挖掘效率较低。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种文本处理方法、文本处理装置及计算机可读存储介质,解决现有技术中文本的标签挖掘效率低的问题。
[0006]为实现上述目的,本专利技术提供一种文本处理方法,所述文本处理方法包括以下步骤:根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。
[0007]可选地,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之前,还包括:获取所述待标注文本所属的领域对应的分词词典,以及通用词权重词典;根据所述分词词典确定所述特征数据的分词划分节点,并基于所述分词划分节点对所述特征数据进行分词处理;以及计算分词后的所述特征数据中特征关键词组的词频以及逆文本频率指数,并基于所述词频以及所述逆文本频率指数,确定所述特征数据的特征关键字的权重占比;以及根据所述通用词权重词典的通用词权重规则,降低所述特征数据的通用词的权重占比,得到所述预处理后的所述特征数据。
[0008]可选地,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建
模,得到所述待标注文本的标签体系的步骤包括:将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值;若所述关键词组存在第一关键词对应的主题数为多个时,依次从各个所述主题对应的关键字中,根据所述关键字的权重值选取N个所述关键字;根据所述关键字的权重值,计算所述各个所述主题对应的累计权重,并将所述累计权重最大的主题作为所述第一关键词对应的所述主题标签;根据所述关键词组的各个关键词对应的所述主题标签,构建所述标签体系。
[0009]可选地,所述将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值的步骤包括:将所述关键词组及其对应的所述预处理后的所述特征数据,输入到所述LDA主题模型中,得到所述预处理后的所述特征数据的困惑度:根据所述困惑度的极小值和/或极小区间确定所述主题数。
[0010]可选地,所述对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签的步骤之前,还包括:通过bert模型以及pytorch多标签分类模型,训练得到所述Mybert模型;所述对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签的步骤包括:基于预设校验规则对各个所述关键词,以及各个所述关键词对应的所述主题标签进行校验;当所述校验结果为校验成功时,将所述标签体系对应的标签,以及所述待标注文本作为所述Mybert模型的输入参数,得到带有所述主题标签的所述待标注文本。
[0011]可选地,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之后,还包括:基于预设校验规则对各个所述关键词,以及各个所述关键词对应的所述主题标签进行校验;在校验结果为校验失败时,对LDA模型进行微调后,跳转执行所述爬取所述关键词组对应的特征数据的步骤。
[0012]可选地,所述根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据的步骤之前,还包括:检测到预设标签体系中的主题标签无法表述所述关键词组的第二关键词时,确定所述关键词组所属的领域;或者检测到所述预设标签体系中的主题标签能够表述所述关键词组的特征时,根据Mybert模型以及预设标签体系的预设标签为待标注文本添加对应的主题标签。
[0013]可选地,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之前,还包括:基于自然语言处理工具和/或自然语言处理模型生成所述关键词组的所述特征数据。
[0014]此外,为实现上述目的,本专利技术还提供一种文本处理装置,所述文本处理装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本处理程序,所述文本处理程序被所述处理器执行时实现如上所述的文本处理方法的步骤。
[0015]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本处理程序,所述文本处理程序被处理器执行时实现如上所述的文本处理方法的步骤。
[0016]本专利技术实施例提供了文本处理方法、文本处理装置及计算机可读存储介质,先根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据,随后基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系,接着对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。可以看出,通过爬虫爬取大量关键词组所属领域内的特征数据,随后将处理后的特征数据用于LDA主题建模学习,基于此扩充了主题建模的样本源,使得模型处理后的结果更精准,而基于无监督学习算法LDA算法自上而下构建标签体系,随后通过自下而上的方式,将当前标签体系内容以及待标注文本罗列到Mybert模型中,基于Mybert模型自动为待标注文本打上相应的标签,实现全流程闭环处理,解决当前构建标签体系后基于人工标注的方式导致标签挖掘效率低的问题,提高了标签挖掘的效率。
附图说明
[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述文本处理方法包括:根据待标注文本对应关键词组所属的领域,爬取所述关键词组对应的特征数据;基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系;对所述标签体系进行校验,当校验结果为校验成功时,根据所述标签体系以及Mybert模型为所述待标注文本添加对应的主题标签。2.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤之前,还包括:获取所述待标注文本所属的领域对应的分词词典,以及通用词权重词典;根据所述分词词典确定所述特征数据的分词划分节点,并基于所述分词划分节点对所述特征数据进行分词处理;以及计算分词后的所述特征数据中特征关键词组的词频以及逆文本频率指数,并基于所述词频以及所述逆文本频率指数,确定所述特征数据的特征关键字的权重占比;以及根据所述通用词权重词典的通用词权重规则,降低所述特征数据的通用词的权重占比,得到所述预处理后的所述特征数据。3.如权利要求1所述的文本处理方法,其特征在于,所述基于所述关键词组以及预处理后的所述特征数据,进行LDA主题建模,得到所述待标注文本的标签体系的步骤包括:将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值;若所述关键词组存在第一关键词对应的主题数为多个时,依次从各个所述主题对应的关键字中,根据所述关键字的权重值选取N个所述关键字;根据所述关键字的权重值,计算所述各个所述主题对应的累计权重,并将所述累计权重最大的主题作为所述第一关键词对应的所述主题标签;根据所述关键词组的各个关键词对应的所述主题标签,构建所述标签体系。4.如权利要求3所述的文本处理方法,其特征在于,所述将所述关键词组及其对应的预处理后的所述特征数据,输入到LDA主题模型中,得到所述关键词组的各个关键词的主题数,其中,所述主题数小于或等于主题数阈值的步骤包括:将所述关键词组及其对应的所述预处理后的所述特征数据,输入到所述LDA主题模型中,得到所述预处理后的所述特征数据的困惑度:根据所述困惑度的极小值和/或极小区间确定所述主题数。5.如权利要求1所述的文本处理方法,...

【专利技术属性】
技术研发人员:张惠玲黄思敏叶嘉健沈吉祥
申请(专利权)人:深圳市智城软件技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1