文本多标签分类方法、装置、设备和存储介质制造方法及图纸

技术编号:28375371 阅读:54 留言:0更新日期:2021-05-08 00:02
本申请公开了一种文本多标签分类方法、装置、设备和存储介质,属于文本处理技术领域。所述方法包括:获取目标文本;获取所述目标文本的关键词;将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。本申请中,由于目标文本的关键词可以代表目标文本的主要内容,且目标文本的关键词的信息量比目标文本的信息量少,所以目标文本的关键词与目标文本的标签的相关性较高,因而本申请中根据目标文本的关键词,通过多标签分类模型获取到的目标文本的标签的准确性较高。

【技术实现步骤摘要】
文本多标签分类方法、装置、设备和存储介质
本申请涉及文本处理
,特别涉及一种文本多标签分类方法、装置、设备和存储介质。
技术介绍
随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本数量呈现出爆炸式增长的趋势。为了有效管理和利用这些海量文本,实现准确的文本定位和文本过滤,目前基于机器学习的文本分类受到广泛关注。相关技术中,先训练得到可以根据文本确定文本标签的分类模型,具体可以使用多个训练样本进行模型训练来得到该分类模型,该多个训练样本中每个训练样本的输入数据为文本、样本标记为文本的标签。之后,若需要对某一文本打标签,则将这一文本输入该分类模型,就可以获得这一文本的标签。然而,由于文本的信息量一般比较大,所以从文本中直接提取标签有较大困难,因而上述方式中通过分类模型直接根据文本确定该文本的标签时的准确性较低。
技术实现思路
本申请实施例提供了一种文本多标签分类方法、装置、设备和存储介质,可以提高确定文本标签的准确性。所述技术方案如下:第一方面,提供了一种文本多标签分类方法,所述方法包括:获取目标文本;获取所述目标文本的关键词;将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。在本申请中,先获取目标文本的关键词,然后将目标文本的关键词输入多标签分类模型,获得目标文本的标签,多标签分类模型用于根据文本关键词确定文本标签。由于目标文本的关键词可以代表目标文本的主要内容,且目标文本的关键词的信息量比目标文本的信息量少,所以目标文本的关键词与目标文本的标签的相关性较高,因而本申请实施例中根据目标文本的关键词,通过多标签分类模型获取到的目标文本的标签的准确性较高。可选地,所述将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签之前,还包括:获取第一训练集,所述第一训练集包括多个第一文本和每个第一文本的标签;获取所述第一训练集中的每个第一文本的关键词;对于所述第一训练集中的任意一个第一文本,将所述一个第一文本的关键词作为一个第一训练样本的输入数据,将所述一个第一文本的标签作为所述一个第一训练样本的样本标记,以得到所述一个第一训练样本;使用获得的多个第一训练样本进行模型训练,得到所述多标签分类模型。可选地,所述获取所述第一训练集中的每个第一文本的关键词,包括:对于所述第一训练集中的任意一个第一文本,将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词,所述关键词抽取模型用于根据文本确定文本关键词;所述获取所述目标文本的关键词,包括:将所述目标文本输入所述关键词抽取模型,获得所述目标文本的关键词。可选地,所述将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词之前,还包括:获取第二训练集,所述第二训练集包括多个第二文本;根据关键词列表,获取所述第二训练集中每个第二文本的关键词;对于所述第二训练集中的任意一个第二文本,将所述一个第二文本作为一个第二训练样本的输入数据,将所述一个第二文本的关键词作为所述一个第二训练样本的样本标记,以得到所述一个第二训练样本;使用获得的多个第二训练样本进行模型训练,得到所述关键词抽取模型。可选地,所述第二训练集包括每个第二文本的标签,所述根据关键词列表,获取所述第二训练集中每个第二文本的关键词之前,还包括:确定所述第二训练集中的所有标签;对于所述第二训练集中的所有标签中的任意一个标签,将具有所述一个标签的所有第二文本归入所述一个标签对应的第二文本集;根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表。可选地,所述根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表,包括:通过关键词提取算法提取所述第二训练集中的所有标签中每个标签对应的第二文本集的关键词,将提取出的关键词归入所述关键词列表。可选地,所述根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表,包括:确定所述第二训练集中的所有标签中每个标签对应的第二文本集中的文本数量;确定多个预设文本数量范围;若所述第二训练集中的所有标签中的至少一个标签对应的第二文本集中的文本数量均处于同一预设文本数量范围,则将所述至少一个标签对应的第二文本集中的所有第二文本归入同一第三文本集;通过关键词提取算法提取获得的每个第三文本集的关键词,将提取出的关键词归入所述关键词列表。第二方面,提供了一种文本多标签分类装置,所述装置包括:第一获取模块,用于获取目标文本;第二获取模块,用于获取所述目标文本的关键词;第三获取模块,用于将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。可选地,所述装置还包括:第四获取模块,用于获取第一训练集,所述第一训练集包括多个第一文本和每个第一文本的标签;第五获取模块,用于获取所述第一训练集中的每个第一文本的关键词;第六获取模块,用于对于所述第一训练集中的任意一个第一文本,将所述一个第一文本的关键词作为一个第一训练样本的输入数据,将所述一个第一文本的标签作为所述一个第一训练样本的样本标记,以得到所述一个第一训练样本;第一训练模块,用于使用获得的多个第一训练样本进行模型训练,得到所述多标签分类模型。可选地,所述第五获取模块用于:对于所述第一训练集中的任意一个第一文本,将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词,所述关键词抽取模型用于根据文本确定文本关键词;所述第二获取模块用于:将所述目标文本输入所述关键词抽取模型,获得所述目标文本的关键词。可选地,所述装置还包括:第七获取模块,用于获取第二训练集,所述第二训练集包括多个第二文本;第八获取模块,用于根据关键词列表,获取所述第二训练集中每个第二文本的关键词;第九获取模块,用于对于所述第二训练集中的任意一个第二文本,将所述一个第二文本作为一个第二训练样本的输入数据,将所述一个第二文本的关键词作为所述一个第二训练样本的样本标记,以得到所述一个第二训练样本;第二训练模块,用于使用获得的多个第二训练样本进行模型训练,得到所述关键词抽取模型。可选地,所述装置还包括:确定模块,用于确定所述第二训练集中的所有标签;划分模块,用于对于所述第二训练集中的所有标签中的任意一个标签,将具有所述一个标签的所有第二文本归入所述一个标签对应的第二文本集;第十获取模块,用于根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表。可选地,所述第十获取模块用于:通过关键词提取算法提取所述第二训练集中的所有标签中每个本文档来自技高网...

【技术保护点】
1.一种文本多标签分类方法,其特征在于,所述方法包括:/n获取目标文本;/n获取所述目标文本的关键词;/n将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。/n

【技术特征摘要】
1.一种文本多标签分类方法,其特征在于,所述方法包括:
获取目标文本;
获取所述目标文本的关键词;
将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。


2.如权利要求1所述的方法,其特征在于,所述将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签之前,还包括:
获取第一训练集,所述第一训练集包括多个第一文本和每个第一文本的标签;
获取所述第一训练集中的每个第一文本的关键词;
对于所述第一训练集中的任意一个第一文本,将所述一个第一文本的关键词作为一个第一训练样本的输入数据,将所述一个第一文本的标签作为所述一个第一训练样本的样本标记,以得到所述一个第一训练样本;
使用获得的多个第一训练样本进行模型训练,得到所述多标签分类模型。


3.如权利要求2所述的方法,其特征在于,所述获取所述第一训练集中的每个第一文本的关键词,包括:
对于所述第一训练集中的任意一个第一文本,将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词,所述关键词抽取模型用于根据文本确定文本关键词;
所述获取所述目标文本的关键词,包括:
将所述目标文本输入所述关键词抽取模型,获得所述目标文本的关键词。


4.如权利要求3所述的方法,其特征在于,所述将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词之前,还包括:
获取第二训练集,所述第二训练集包括多个第二文本;
根据关键词列表,获取所述第二训练集中每个第二文本的关键词;
对于所述第二训练集中的任意一个第二文本,将所述一个第二文本作为一个第二训练样本的输入数据,将所述一个第二文本的关键词作为所述一个第二训练样本的样本标记,以得到所述一个第二训练样本;
使用获得的多个第二训练样本进行模型训练,得到所述关键词抽取模型。


5.如权利要求4所述的方法,其特征在于,所述第二训练集包括每个第二文本的标签,所述根据关键词列表,...

【专利技术属性】
技术研发人员:夏德军
申请(专利权)人:安徽希施玛数据科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1