一种通过舆情数据挖掘热度词根的方法和装置制造方法及图纸

技术编号:27134386 阅读:21 留言:0更新日期:2021-01-25 20:32
本申请涉及一种通过舆情数据挖掘热度词根的方法和装置,其中,该方法包括:输出词根步骤,根据索引条件和附加信息确认标题,对标题进行分词并输出有效词根;统计评论数量步骤,接收并根据有效词根统计有效词根对应的评论数量;词根分类步骤,通过分类器将有效词根按照所需的业务点进行分类并输出对应的词根类别;确定词根步骤,在词根类别下将对应有效词根按照评论数量进行排序,将排序在一定序次的有效词根作为热度词根。本申请通过使用更具有舆情代表性的数据,并结合评论数量,解决了现有的词根不准确的问题,所挖掘到的热度词根更能体现出用户最近关注的热点。能体现出用户最近关注的热点。能体现出用户最近关注的热点。

【技术实现步骤摘要】
一种通过舆情数据挖掘热度词根的方法和装置


[0001]本申请涉及人工智能
,特别是涉及一种通过舆情数据挖掘热度词根的方法、装置。

技术介绍

[0002]在淘宝钻展,直通车等活动中,电商们会通过购买关键词来实现千人千面的客户引流。构建词根的主要目的是给电商的关键词投手们提供一些词根相关的舆情分析,即,可以组建关键词的一部分,如“洗衣液促销”里面的词根为“洗衣液”和“促销”,从而给投手一些比较直观的信息而利于他们去组建和购买合理的关键词。例如,投手想为某个场景下的宝贝推荐关键词,已知该宝贝的品牌为当妮,品类为洗衣粉,我们会给投手们提供当妮洗衣粉相关的最近讨论较高的词根,比如,“除菌”,“好闻”,“李佳奇代言”等等。投手拿到信息后即可组建一些精准的长尾关键词,如“洗衣液除菌好闻”等等,或者用该信息去评估他们本有的候选关键词库。
[0003]一般来说,相关技术会通过实体识别等方法对大量的和产品相关的语料进行分析,抽取可能成为词根的实体作为备选,然后再根据词频过滤掉热度较小的词根,并推荐热度高的给投手参考。然而,在实际做的过程中,发现通过索引形式获取的舆情语料(如含有洗衣液的微博评论、知乎评论、淘宝评论等等)大部分并不包含可能构成关键词的词根。其次,即便是有词根,词根的所处的语境也未必是正向的,比如“这个洗衣液真的非常难用”,“难用”虽可作为一个正常词根,但因其处在负向的评语里所以使用的意义不大。
[0004]目前针对相关技术中词根准确性低的问题,尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种通过舆情数据挖掘热度词根的方法和装置,基于大量的关于电商的标题和评论数据,提取电商的标题中出现的词根,并根据评论数据来间接判断词根的热度,以至少解决相关技术中所提取的词根准确性低,无法满足需求的问题。
[0006]第一方面,本申请实施例提供了一种通过舆情数据挖掘热度词根的方法,包括以下步骤:
[0007]输出词根步骤,根据索引条件和附加信息确认标题,对所述标题进行分词并输出有效词根;
[0008]统计评论数量步骤,接收并根据所述有效词根统计所述有效词根对应的评论数量;
[0009]词根分类步骤,通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别;
[0010]确定词根步骤,在所述词根类别下将对应所述有效词根按照所述评论数量进行排序,将排序在一定序次的所述有效词根作为热度词根。
[0011]在其中一些实施例中,所述词根分类步骤具体包括:
[0012]预分类步骤,接收并对部分所述有效词根进行标签分类;
[0013]模型训练步骤,利用标签分类后的所述有效词根训练多类型模型;
[0014]分类步骤,根据所述多类型模型对剩余的所述有效词根进行分类。
[0015]在其中一些实施例中,所述输出词根步骤中包括:
[0016]对所述标题进行分词得到词根后,利用TF-IDF去掉所述词根中的高频词汇,并输出所述有效词根。
[0017]在其中一些实施例中,所述输出词根步骤中包括以下步骤:
[0018]标注关键词步骤,接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对所述历史关键词词根和所述榜单热词词根进行标注;
[0019]训练二分类模型步骤,运用所述历史关键词词根和所述榜单热词词根训练二分类模型;
[0020]输出有效词根步骤,根据所述二分类模型判断所述标题中的词根是否满足模型条件,对满足条件的所述有效词根进行保存并输出。
[0021]在其中一些实施例中,当一有效词根出现在多个所述标题下方时,所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。
[0022]第二方面,本申请实施例提供了一种通过舆情数据挖掘热度词根的装置,包括:
[0023]输出词根模块,根据索引条件和附加信息确认标题,对所述标题进行分词并输出有效词根;
[0024]统计评论数量模块,接收并根据所述有效词根统计所述有效词根对应的评论数量;
[0025]词根分类模块,通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别;
[0026]确定词根模块,在对应的所述词根类别下将所述有效词根按照所述评论数量进行排序,将排序在一定序次的所述有效词根作为热度词根。
[0027]在其中一些实施例中,所述词根分类模块具体包括:
[0028]预分类单元,接收并对部分所述有效词根进行标签分类;
[0029]模型训练单元,利用标签分类后的所述有效词根训练多类型模型;
[0030]分类单元,根据所述多类型模型对剩余的所述有效词根进行分类。
[0031]在其中一些实施例中,所述输出词根模块对所述标题进行分词得到词根后,利用TF-IDF去掉所述词根中的高频词汇,并输出所述有效词根。
[0032]在其中一些实施例中,所述输出词根模块包括以下模块:
[0033]标注关键词单元,接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对所述历史关键词词根和所述榜单热词词根进行标注;
[0034]训练二分类模型单元,运用所述历史关键词词根和所述榜单热词词根训练二分类模型;
[0035]输出有效词根单元,根据所述二分类模型判断所述标题中的词根是否满足模型条件,对满足条件的所述有效词根进行保存并输出。
[0036]在其中一些实施例中,当一有效词根出现在多个所述标题下方时,所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。
[0037]相比于相关技术,本申请实施例提供的通过舆情数据挖掘热度词根的方法和装置,通过使用更具有舆情代表性的数据,并结合评论数量,解决了现有的词根不准确的问题,所挖掘到的热度词根更能体现出用户最近关注的热点。在实际的应用中,业务端反应良好,因词根的来源更具备说服力,投手更愿意使用本专利技术提供的词根来构建关键词进而实现投放,提高了用户的体验。
[0038]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0039]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0040]图1是根据本申请实施例的通过舆情数据挖掘热度词根的方法的流程图;
[0041]图2是根据本申请实施例的词根分类步骤的流程图;
[0042]图3是根据本申请实施例的一种输出有效词根的方法的流程图;
[0043]图4是根据本申请实施例的通过舆情数据挖掘热度词根的方法的优选流程图;
[0044]图5是根据本申请实施例的通过舆情数据挖掘热度词根的装置的结构框图;
[0045]图6是根据本申请实施例的词根根类模块的结构框图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通过舆情数据挖掘热度词根的方法,其特征在于,包括以下步骤:输出词根步骤,根据索引条件和附加信息确认标题,对所述标题进行分词并输出有效词根;统计评论数量步骤,接收并根据所述有效词根统计所述有效词根对应的评论数量;词根分类步骤,通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别;确定词根步骤,在所述词根类别下将对应所述有效词根按照所述评论数量进行排序,将排序在一定序次的所述有效词根作为热度词根。2.根据权利要求1所述的通过舆情数据挖掘热度词根的方法,其特征在于,所述词根分类步骤具体包括:预分类步骤,接收并对部分所述有效词根进行标签分类;模型训练步骤,利用标签分类后的所述有效词根训练多类型模型;分类步骤,根据所述多类型模型对剩余的所述有效词根进行分类。3.根据权利要求1所述的通过舆情数据挖掘热度词根的方法,其特征在于,所述输出词根步骤中包括:对所述标题进行分词得到词根后,利用TF-IDF去掉所述词根中的高频词汇,并输出所述有效词根。4.根据权利要求1所述的通过舆情数据挖掘热度词根的方法,其特征在于,所述输出词根步骤中包括以下步骤:标注关键词步骤,接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根,对所述历史关键词词根和所述榜单热词词根进行标注;训练二分类模型步骤,运用所述历史关键词词根和所述榜单热词词根训练二分类模型;输出有效词根步骤,根据所述二分类模型判断所述标题中的词根是否满足模型条件,对满足条件的所述有效词根进行保存并输出。5.根据权利要求1所述的通过舆情数据挖掘热度词根的方法,其特征在于,当一有效词根出现在多个所述标题下方时,所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。6.一...

【专利技术属性】
技术研发人员:陈嘉真张琛王硕徐凯波
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1