System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 标签发现方法、标签发现装置、存储介质及电子设备制造方法及图纸_技高网

标签发现方法、标签发现装置、存储介质及电子设备制造方法及图纸

技术编号:41265046 阅读:7 留言:0更新日期:2024-05-11 09:21
本说明书实施方式提供了一种标签发现方法、标签发现装置、存储介质及电子设备。其中,该标签发现方法包括:利用文本分类模型对待筛选文本集中的文本进行文本分类,获取分类结果;根据分类结果对待筛选文本集进行文本筛选,获取文本候选集,其中,文本候选集中文本的分类类别不属于已有标签;对文本候选集进行文本聚类,获取K个聚类簇,其中,K为大于1的整数;分别从K个聚类簇中选取待标注文本,以便于对待标注文本进行标注,获得新标签。该标签发现方法能够自动筛选待标注文本,从而大大减少工作量,减少人工成本,提高新标签体系的构建效率。

【技术实现步骤摘要】

本说明书中实施方式关于文本标注领域,特别涉及一种标签发现方法、标签发现装置、存储介质及电子设备


技术介绍

1、目前,在针对商品的类目进行标签体系建立的过程中,不同类目的标签可能存在不一致的情况,因此需要对新的类目定义新的标签。在新标签的发现过程,需要对大量文本进行抽样,然后对文本的标签进行人工定义。

2、但是,由于类目种类繁多,单纯靠人工进行文本抽样并逐个定义标签会耗费大量的标注人力,并且,由于文本存在大量的语义重复,在人工查看的过程中,会因为重复查看而浪费大量的时间。


技术实现思路

1、本说明书中多个实施方式提供一种标签发现方法、标签发现装置、存储介质及电子设备,能够自动筛选待标注文本,从而大大减少工作量,减少人工成本,提高新标签体系的构建效率。

2、本说明书的一个实施方式提供一种标签发现方法,包括:利用文本分类模型对待筛选文本集中的文本进行文本分类,获取分类结果;根据分类结果对待筛选文本集进行文本筛选,获取文本候选集,其中,文本候选集中文本的分类类别不属于已有标签;对文本候选集进行文本聚类,获取k个聚类簇,其中,k为大于1的整数;分别从k个聚类簇中选取待标注文本,以便于对待标注文本进行标注,获得新标签。

3、在一些实施方式中,该标签发现方法还包括:利用文本聚类算法对待筛选文本集中的文本进行文本聚类,获得聚类结果;其中,上述根据分类结果对待筛选文本集进行文本筛选,获取文本候选集,包括:根据分类结果和聚类结果,对待筛选文本集进行文本筛选,获取文本候选集。

4、在一些实施方式中,聚类结果包括m个聚类簇,m为大于1的整数,其中,上述根据分类结果和聚类结果,对待筛选文本集进行文本筛选,获取文本候选集,包括:针对m个聚类簇,分别获取每个聚类簇中每个文本的分类结果对应的熵;分别获取每个聚类簇对应的平均熵;根据每个聚类簇对应的平均熵,对待筛选文本集进行文本筛选,获取文本候选集。

5、在一些实施方式中,上述根据每个聚类簇对应的平均熵,对待筛选文本集进行文本筛选,获取文本候选集,包括:从m个聚类簇中选取平均熵大于预设阈值的n个聚类簇,其中,n为小于m的整数;将n个聚类簇的文本作为文本候选集。

6、在一些实施方式中,该标签发现方法还包括:利用标注文本对文本分类模型进行训练,其中,标注文本是通过对待标注文本进行标注得到的。

7、在一些实施方式中,上述利用文本分类模型对待筛选文本集中的文本进行文本分类,获取分类结果,包括:利用文本分类模型获取待筛选文本集中每个文本的文本表示;根据文本表示得到多个标签维度的概率,以作为分类结果。

8、在一些实施方式中,新标签包括用户体感类标签,用户体感类标签包括续航、噪声、测量准确度中的至少一种。

9、本说明书的一个实施方式提供一种标签发现装置,包括:分类模块,用于利用文本分类模型对待筛选文本集中的文本进行文本分类,获取分类结果;筛选模块,用于根据分类结果对待筛选文本集进行文本筛选,获取文本候选集,其中,文本候选集中文本的分类类别不属于已有标签;聚类模块,用于对文本候选集进行文本聚类,获取k个聚类簇,其中,k为大于1的整数;选取模块,用于分别从k个聚类簇中选取待标注文本,以便于对待标注文本进行标注,获得新标签。

10、本说明书的一个实施方式提供一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一实施方式所述的标签发现方法。

11、本说明书的一个实施方式提供一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,可执行指令被处理器执行时实现上述任一实施方式所述的标签发现方法。

12、本说明书的一个实施方式提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施方式所述的标签发现方法。

13、本说明书提供的多个实施方式,利用文本分类模型对待筛选文本集中的文本进行文本分类,获取分类结果;根据分类结果对待筛选文本集进行文本筛选,获取文本分类类别不属于已有标签的文本候选集;对文本候选集进行文本聚类,获取k个聚类簇,其中,k为大于1的整数;分别从k个聚类簇中选取待标注文本,以便于对待标注文本进行标注,获得新标签,本说明书实施方式提供的技术方案能够自动筛选出不同语义的可能需要定义新标签的文本,将这些文本进行人工标注,这样可以大大减少工作量,减少人工成本,提高新标签体系的构建效率。

本文档来自技高网...

【技术保护点】

1.一种标签发现方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求2所述的方法,其特征在于,所述聚类结果包括M个聚类簇,M为大于1的整数,其中,所述根据所述分类结果和所述聚类结果,对所述待筛选文本集进行文本筛选,获取所述文本候选集,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据每个聚类簇对应的所述平均熵,对所述待筛选文本集进行文本筛选,获取所述文本候选集,包括:

5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:

6.根据权利要求1至4中任一项所述的方法,其特征在于,所述利用文本分类模型对待筛选文本集中的文本进行文本分类,获取分类结果,包括:

7.根据权利要求1至4中任一项所述的方法,其特征在于,所述新标签包括用户体感类标签,所述用户体感类标签包括续航、噪声、测量准确度中的至少一种。

8.一种标签发现装置,其特征在于,包括:

9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至7中任一项所述的方法。

10.一种电子设备,其特征在于,所述电子设备包括:

...

【技术特征摘要】

1.一种标签发现方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求2所述的方法,其特征在于,所述聚类结果包括m个聚类簇,m为大于1的整数,其中,所述根据所述分类结果和所述聚类结果,对所述待筛选文本集进行文本筛选,获取所述文本候选集,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据每个聚类簇对应的所述平均熵,对所述待筛选文本集进行文本筛选,获取所述文本候选集,包括:

5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:

<...

【专利技术属性】
技术研发人员:习雨璇刘克松张磊马呈芳刘芳侯政旭
申请(专利权)人:阿里健康科技杭州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1