一种标签的提取方法、装置、设备及可读存储介质制造方法及图纸

技术编号:27131835 阅读:24 留言:0更新日期:2021-01-25 20:11
本申请实施例提供了一种标签的提取方法、装置、设备及可读存储介质,对获取的文本进行处理,得到候选词集合。依据参数,计算候选词的初始权重值,依据初始权重值和预设的权重迭代算法,计算候选词集合中的词的第一权重值。依据第一权重值以及调整系数,确定候选词集合中的词的第二权重值,依据第二权重值,从候选词集合中选择文本的标签。目标候选词的参数至少包括目标候选词的词频、目标候选词的词长和/或目标候选词的词跨度,目标候选词的调整系数包括第一调整系数和/或第二调整系数,可见,本方法结合了词长、词跨度和调整系数,而非仅有词频,不仅能够降低对于词频的依赖程度,更能从多个维度获取权重,从而提高标签提取的准确性。性。性。

【技术实现步骤摘要】
一种标签的提取方法、装置、设备及可读存储介质


[0001]本申请涉及数据处理
,尤其涉及一种标签的提取方法、装置、设备及可读存储介质。

技术介绍

[0002]文本的标签是能够表达文本核心内容的词语,该词语有助于对文本进行简单的描述和分类,例如,在新闻资讯领域中,文本资讯数据具有数量大,内容鱼目混杂、难以精确推送、读者阅读困难等难点,资讯文本的标签有助于文本资讯的内容分类、汇集、检索以及后续的个性化推荐,但是,现有的标签提取算法,提取的标签的准确性不高,即标签不能表示文本的核心内容。

技术实现思路

[0003]申请人在研究的过程中发现,现有的标签的提取方法,过度依赖词频这一个因素,所以,提取的标签准确性不高。
[0004]有鉴于此,本申请提供了一种标签的提取方法、装置、设备及可读存储介质,用于提高标签的准确性,如下:
[0005]一种标签的提取方法,包括:
[0006]获取文本;
[0007]对所述文本进行处理,得到候选词集合,所述处理至少包括分词处理;
[0008]依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
[0009]依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
[0010]依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
[0011]依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
[0012]可选地,获取文本包括:
[0013]对原始文本进行清洗,得到所述文本,所述清洗包括:去除预设类型的字符、将字符转换为预设格式中的至少一项。
[0014]可选地,处理还包括:
[0015]在所述分词处理之前,删除所述文本中的预设类型的内容。
[0016]可选地,处理还包括:
[0017]在所述分词处理之前,检测目标字符,所述目标字符为所述文本中处于预设位置的字符;
[0018]在所述文本中所述目标字符的前或后相邻位置,将所述目标字符复制N倍,所述N依据所述预设位置预先设置。
[0019]可选地,处理还包括:
[0020]在所述分词处理之后,对所述分词处理的结果进行词清洗,所述词清洗包括将相同含义的词统一表述。
[0021]可选地,词清洗还包括:
[0022]去除预设的停用词和/或无效词。
[0023]可选地,依据所述第二权重值,从所述候选词集合中选择所述文本的标签,包括:
[0024]将所述第二权重值基于预设规则进行归一化,得到归一化的权重值,所述预设规则包括:
[0025]将预设规则函数的函数曲线沿水平轴向右平移0.5个单位,并且将所述函数曲线在竖直轴上的值乘以2;
[0026]依据所述归一化的权重值,从所述候选词集合中选择所述文本的标签。
[0027]一种标签的提取装置,包括:
[0028]文本获取单元,用于获取文本;
[0029]文本处理单元,用于对所述文本进行处理,得到候选词集合,所述处理至少包括分词处理;
[0030]初始权重计算单元,用于依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;
[0031]第一权重值计算单元,用于依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;
[0032]第二权重值计算单元,用于依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;
[0033]文本标签确定单元,用于依据所述第二权重值,从所述候选词集合中选择所述文本的标签。
[0034]一种标签的提取设备,包括:存储器和处理器;
[0035]所述存储器,用于存储程序;
[0036]所述处理器,用于执行所述程序,实现如上所述的标签的提取方法的各个步骤。
[0037]一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现如上所述的标签的提取方法的各个步骤。
[0038]由上述技术方案可以看出,本申请实施例提供的标签的提取方法、装置、设备及可读存储介质,对获取的文本进行处理,得到候选词集合。依据参数,计算候选词的初始权重
值,依据初始权重值和预设的权重迭代算法,计算候选词集合中的词的第一权重值。依据第一权重值以及调整系数,确定候选词集合中的词的第二权重值,依据第二权重值,从候选词集合中选择文本的标签。目标候选词(候选词集合中的任意一个词)的参数至少包括目标候选词的词频、目标候选词的词长和/或目标候选词的词跨度,目标候选词的调整系数包括第一调整系数和/或第二调整系数,可见,本方法结合了词长、词跨度和调整系数,而非仅有词频,不仅能够降低对于词频的依赖程度,更能从多个维度获取权重,从而提高标签提取的准确性。
附图说明
[0039]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本申请实施例提供的一种标签的提取方法的具体实施方式的流程示意图;
[0041]图2为本申请实施例提供的一种优化后sigmoid函数的曲线示意图;
[0042]图3为本申请实施例提供的一种标签的提取方法的流程示意图;
[0043]图4为本申请实施例提供的一种标签的提取装置的结构示意图;
[0044]图5为本申请实施例提供的一种标签的提取设备的结构示意图。
具体实施方式
[0045]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签的提取方法,其特征在于,包括:获取文本;对所述文本进行处理,得到候选词的集合,所述处理至少包括分词处理;依据参数,计算所述候选词的初始权重值,其中,目标候选词的所述参数至少包括所述目标候选词的词频、所述目标候选词的词长和/或所述目标候选词的词跨度,所述目标候选词的词跨度为所述目标候选词在所述文本中,按照所述文本顺序,首次出现的位置与末次出现的位置之间的文本长度;所述目标候选词为所述候选词集合中的任意一个词;依据所述初始权重值和预设的权重迭代算法,计算所述候选词集合中的词的第一权重值;依据所述第一权重值以及调整系数,确定所述候选词集合中的词的第二权重值,所述调整系数包括第一调整系数和/或第二调整系数,所述目标候选词的所述第一调整系数依据所述目标候选词指示的领域预先设置,所述目标候选词的所述第二调整系数依据所述目标候选词指示的对象预先设置;依据所述第二权重值,从所述候选词集合中选择所述文本的标签。2.根据权利要求1所述的方法,其特征在于,所述获取文本,包括:对原始文本进行清洗,得到所述文本,所述清洗包括:去除预设类型的字符、将字符转换为预设格式中的至少一项。3.根据权利要求1所述的方法,其特征在于,所述处理还包括:在所述分词处理之前,删除所述文本中的预设类型的内容。4.根据权利要求1或3所述的方法,其特征在于,所述处理还包括:在所述分词处理之前,检测目标字符,所述目标字符为所述文本中处于预设位置的字符;在所述文本中所述目标字符的前或后相邻位置,将所述目标字符复制N倍,所述N依据所述预设位置预先设置。5.根据权利要求1所述的方法,其特征在于,所述处理还包括:在所述分词处理之后,对所述分词处理的结果进行词清洗,所述词清洗包括将相同含义的词统一表述。6.根据权利要求5所述的方法,其特征在于,所述词清洗还包括:去除预设的停用词和/或无效词。7.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:陈扬陆惠国陆争辉顾文斌祝志伟
申请(专利权)人:上海恒生聚源数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1