本申请涉及一种基于类别关键词的句子填充方法、装置、设备及存储介质。所述方法包括:获取待处理文本,提取待处理文本中的多个属性关键词,对所述多个属性关键词执行聚类操作得到至少一个聚类簇,分别为每个所述聚类簇分配对应的类别关键词,计算每个所述类别关键词之间的属性关键词的关联度,基于所述关联度从每个所述类别关键词对应的属性关键词中选取出目标关键词,将目标关键词填充至预设的语句模板,得到填充后的目标语句。本申请可以从散乱的数据信息中得到有效价值高且合理的目标语句。句。句。
【技术实现步骤摘要】
基于类别关键词的句子填充方法、装置、设备及存储介质
[0001]本申请涉及计算机
,尤其涉及一种基于类别关键词的句子填充方法、装置、设备及存储介质。
技术介绍
[0002]随着互联网技术的不断发展,用户希望从各种数据信息中,提取并整合出有效价值高的信息,例如,从电商数据中提取出消费者需求信息,从新闻数据中提取出舆情信息等。但由于数据信息往往多而且散乱,导致提取的信息有效价值不高或者提取信息不合理,因此,如何从散乱的数据信息中得到有效价值高且合理的信息,已成为本领域技术人员亟待解决的技术问题。
技术实现思路
[0003]鉴于以上内容,本申请提供一种基于类别关键词的句子填充方法、装置、设备及存储介质,其目的在于解决上述技术问题。
[0004]第一方面,本申请提供一种基于类别关键词的句子填充方法,所述方法包括:
[0005]获取待处理文本,提取所述待处理文本中的多个属性关键词;
[0006]对所述多个属性关键词执行聚类操作得到至少一个聚类簇,分别为每个所述聚类簇分配对应的类别关键词;
[0007]计算每个所述类别关键词之间的属性关键词的关联度,基于所述关联度从每个所述类别关键词对应的属性关键词中选取出目标关键词;
[0008]将所述目标关键词填充至预设的语句模板,得到填充后的目标语句。
[0009]第二方面,本申请提供一种基于类别关键词的句子填充装置,所述装置包括:
[0010]提取模块:用于获取待处理文本,提取所述待处理文本中的多个属性关键词;
[0011]聚类模块:用于对所述多个属性关键词执行聚类操作得到至少一个聚类簇,分别为每个所述聚类簇分配对应的类别关键词;
[0012]选取模块:用于计算每个所述类别关键词之间的属性关键词的关联度,基于所述关联度从每个所述类别关键词对应的属性关键词中选取出目标关键词;
[0013]填充模块:用于将所述目标关键词填充至预设的语句模板,得到填充后的目标语句。
[0014]第三方面,本申请提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0015]存储器,用于存放计算机程序;
[0016]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的基于类别关键词的句子填充方法。
[0017]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于类别关键词的句子填充方
法。
[0018]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0019]本申请通过提取待处理文本中的多个属性关键词,对多个属性关键词执行聚类操作得到聚类簇后为每个聚类簇分配对应的类别关键词,由于聚类簇表征的是具有共性的属性关键词,为每个聚类簇分配对应的类别关键词可以用类别关键词将属性关键词进行归类,计算每个类别关键词之间的属性关键词的关联度,根据关联度从每个类别关键词对应的属性关键词中选取出目标关键词,再将目标关键词填充至预设的语句模板得到填充后的目标语句。由于目标关键词属于不同类别关键词的属性关键词中关联度较高的词,因此利用目标关键词填充得到的目标语句具有较高的可解释性及合理性,且目标语句的有效价值高。
附图说明
[0020]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0021]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本申请基于类别关键词的句子填充方法实施例的流程示意图;
[0023]图2为本申请基于类别关键词的句子填充装置较佳实施例的模块示意图;
[0024]图3为本申请电子设备较佳实施例的示意图;
[0025]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0026]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
[0028]本申请提供一种基于类别关键词的句子填充方法。参照图1所示,为本申请基于类别关键词的句子填充方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。基于类别关键词的句子填充方法包括:
[0029]步骤S1:获取待处理文本,提取所述待处理文本中的多个属性关键词;
[0030]步骤S2:对所述多个属性关键词执行聚类操作得到至少一个聚类簇,分别为每个所述聚类簇分配对应的类别关键词;
[0031]步骤S3:计算每个所述类别关键词之间的属性关键词的关联度,基于所述关联度从每个所述类别关键词对应的属性关键词中选取出目标关键词;
[0032]步骤S4:将所述目标关键词填充至预设的语句模板,得到填充后的目标语句。
[0033]本实施例中,待处理文本可以是从第三方数据源及/或本地数据源爬取的文本,在实际应用场景中,待处理文本可以是与商品相关的文本,从文本中提取出关键信息填充至语句模板,可以得到商品对应的消费者需求和市场趋势等。待处理文本还可以是时事资讯类的文本,从文本中提取出关键信息填充至语句模板,可以得到新闻时事对应的舆情走向等。以待处理文本为商品相关的文本为例对本申请的方案进行说明,可以理解的是,本申请方案的实际应用场景并不仅限于此,还可以是对时事资讯类的文本、金融资讯类的文本进行关键信息提取,再进行语句填充等。具体地,所述获取待处理文本,包括:
[0034]从预设电商平台中获取商品的属性文本,将所述属性文本作为所述待处理文本,其中,所述属性文本包括所述商品的标题文本、参数文本及评价文本中的至少一种。
[0035]可以根据商品的品种及品类获取商品的属性文本,属性文本可以是指该商品的标题文本(例如,商品标题)、参数文本(例如,商品参数)及评价文本(例如,评价反馈)中的至少一种,属性文本还可以包括该本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于类别关键词的句子填充方法,其特征在于,所述方法包括:获取待处理文本,提取所述待处理文本中的多个属性关键词;对所述多个属性关键词执行聚类操作得到至少一个聚类簇,分别为每个所述聚类簇分配对应的类别关键词;计算每个所述类别关键词之间的属性关键词的关联度,基于所述关联度从每个所述类别关键词对应的属性关键词中选取出目标关键词;将所述目标关键词填充至预设的语句模板,得到填充后的目标语句。2.如权利要求1所述的基于类别关键词的句子填充方法,其特征在于,所述提取所述待处理文本中的多个属性关键词,包括:对所述待处理文本执行分词操作得到多个分词;统计每个所述分词的词频,基于所述词频从所述多个分词中选取出所述多个属性关键词。3.如权利要求1所述的基于类别关键词的句子填充方法,其特征在于,所述对所述多个属性关键词执行聚类操作得到至少一个聚类簇,包括:将每个所述属性关键词转换为词向量,计算任意两个所述属性关键词之间的距离;将所述距离属于预设数值范围内的属性关键词归为同一个聚类簇,得到至少一个聚类簇。4.如权利要求1所述的基于类别关键词的句子填充方法,其特征在于,所述计算每个所述类别关键词之间的属性关键词的关联度,基于所述关联度从每个所述类别关键词对应的属性关键词中选取出目标关键词,包括:A1、选取任意一个类别关键词,将所述类别关键词对应的属性关键词作为初始关键词,并初始化空集的选定关键词,初始化关联度加和值为零;A2、计算所述初始关键词与所述选定关键词的并集,与其它类别关键词对应的每个属性关键词的关联度;A3、基于所述关联度从所述其它类别关键词对应的属性关键词中选取出预设数量的目标关键词;A4、根据所述目标关键词对应的关联度更新所述关联度加和值,将所述目标关键词放入所述选定关键词;A5、重复步骤A2至A4,直至从所有类别关键词对应的属性关键词的关联度均计算完毕。5.如权利要求4所述的基于类别关键词的句子填充方法,其特征在于,所述关联度的计算公式包括:其中,a表示所...
【专利技术属性】
技术研发人员:李礼,吕博文,何维华,
申请(专利权)人:深圳视界信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。