一种同行召回方法、系统及存储介质技术方案

技术编号:37048946 阅读:14 留言:0更新日期:2023-03-29 19:27
本申请涉及同行推荐服务领域,具体公开了一种同行召回方法、系统及存储介质,所述方法包括:获取用户输入的公司名称,并根据公司名称获取公司信息,所述公司信息包括公司的产品词以及对应的权重;对公司的产品词进行分词,并根据分词结果结合对应权重生成搜索项;基于搜索项,通过预设的搜索库进行搜索匹配,获取第一组召回结果;对公司的产品词通过预设的编码方式进行编码,获取词向量并对词向量进行加权,以生成企业向量;根据企业向量,通过相似向量检索库进行召回,获取第二组召回结果。本申请通过在公司产品词的基础上生成多种不同形式的召回策略,可以获取到更全面的同行信息,并且只需输入公司名称即可进行同行召回。并且只需输入公司名称即可进行同行召回。并且只需输入公司名称即可进行同行召回。

【技术实现步骤摘要】
一种同行召回方法、系统及存储介质


[0001]本申请涉及同行推荐服务领域,尤其涉及一种同行召回方法、系统及存储介质。

技术介绍

[0002]同行召回表示的从相应的企业库中寻找属于同一行业的其它公司或者企业,在同行推荐的过程中,召回作为一个重要流程,决定了所推荐同行的最大范围,后续的所有操作,都是在召回的同行公司内进行筛选,所以对召回的处理得当,可以让同行推荐服务性能效果更加优秀。
[0003]现有的召回方式一般都是根据所属行业或者所涉及业务来输入相关的关键词,从而进行搜索获取到要查询的同行公司。
[0004]但这种方式获取的搜索结果可能并不全面或者说并不能贴合用户需求,例如A公司为化妆品生产销售商,B公司为化妆品原料供应商,两个公司都涉及到化妆品业务,但并不属于同行,这种情况下,若A公司想要查询同行,输入关键词为化妆品,B公司可能也会被纳入匹配项,显然并不符合需求。想要进行区分,则还需要增加新的关键词,如此一来,整个召回过程可能需要不断地对输入关键词进行调整,相对比较繁琐。

技术实现思路

[0005]本申请的目的是提供一种同行召回方法、系统及存储介质,通过新的召回策略,在同行推荐服务中,只需要输入公司名称,便可获取到公司的产品词,然后通过对公司产品词生成召回策略,即可召回所需的大部分公司。
[0006]第一方面,本申请提供一种同行召回方法,采用如下的技术方案:获取用户输入的公司名称,并根据公司名称获取公司信息,所述公司信息包括公司的产品词,所述产品词附带有对应的权重;对公司的产品词进行分词,并根据分词结果结合对应权重生成搜索项;基于搜索项,通过预设的搜索库进行搜索匹配,获取第一组召回结果;对公司的产品词通过预设的编码方式进行编码,获取词向量;通过产品词对应的权重对词向量进行加权,以生成企业向量;根据企业向量,通过相似向量检索库进行召回,获取第二组召回结果;输出第一组召回结果和第二组召回结果。
[0007]通过上述技术方案,只需通过输入公司名称即可根据公司名称提取到对应的公司产品词,在产品词的基础上采用多种不同的召回方式,可以获取不同的召回结果,可更好地满足对于同行召回的需求。
[0008]可选的,所述搜索项包括第一搜索项和第二搜索项,所述对公司的产品词进行分词,并根据分词结果结合对应权重生成搜索项,包括:对公司的所有产品词进行分词并去掉虚词,记剩下的产品词为第一主题词;对公司的所有产品词进行分词,对每一个分词结果以从后往前的顺序去掉虚词,
并将去掉虚词的最后一个词记为第二主题词;分别对第一主题词和第二主题词统计词频,将每个词的词频与对应权重相乘,记为该词的重要度;根据所有的第一主题词和各词对应的重要度,获取第一搜索项;根据所有的第二主题词和各词对应的重要度,获取第二搜索项。
[0009]可选的,所述基于搜索项,通过预设的搜索库进行搜索匹配,获取第一组召回结果,包括:基于第一主题词,通过第一预设搜索匹配方式进行匹配搜索,并对搜索结果根据各词对应的重要度进行排序,获取第一搜索结果集;基于第二主题词,通过第二预设搜索匹配方式进行匹配搜索,并对搜索结果根据各词对应的重要度进行排序,获取第二搜索结果集;将第一搜索结果集和第二搜索结果集合并为第一组召回结果。
[0010]可选的,所述获取用户输入的公司名称,并根据公司名称获取公司信息之后,还包括:对输入公司的所有产品词根据权重进行筛选,获取高分词;对于每一个高分词,通过预设的词性分词方式进行划分,获取对应的一组局部高分词;对每一组局部高分词,通过预设的替换方法进行词替换,并对替换后的词进行重组,获取重组高分词;对所有的重组高分词通过预设的编码方式进行编码,获取重组词向量;基于重组词向量,通过相似向量检索库进行召回,获取第三组召回结果。
[0011]可选的,所述对每一组局部高分词,通过预设的替换方法进行词替换,并对替换后的词进行重组,获取重组高分词,包括:对每一组局部高分词,通过预设的替换方式进行词替换,获取多组局部替换高分词,并形成局部替换高分词集合;对每一组局部高分词,通过预设的编码方式进行编码,获取基准词向量;遍历局部替换高分词集合,对于每一组局部替换高分词,通过预设的编码方式进行编码,获取替换词向量;对基准词向量和替换词向量,通过相似度计算获取对应相似度;当相似度达到预设的语义相似阈值时,将当前新的替换词记为有效替换词;遍历完成之后,对所有的有效替换词进行重组,将重组后的词作为重组高分词。
[0012]可选的,所述公司信息还包括业务信息,所述业务信息包括人工标注信息、专利信息,所述专利信息包含专利的IPC号,所述获取用户输入的公司名称之后,还包括:基于人工标注信息,获取人工召回结果;基于专利的IPC号,通过IPC号的位数进行模糊匹配,获取专利召回结果;将人工召回结果同专利召回结果进行合并,获取第四组召回结果。
[0013]可选的,获取用户输入的公司名称之后,还包括:基于查询公司名称,通过预设的搜索库进行检索判断是否输入名称有误,若输入名称无误,将当前用户输入的公司名称记录在预设数据库中,并根据公司
名称获取公司信息;若输入名称有误,则判断预设数据库中是否存在当前用户的输入查询记录并且查询数据量达到预设阈值;若否,输出提示信息,所述提示信息表示输入名称有误请重新输入;若是,则根据当前用户的历史查询记录对输入的公司名称进行改写,并根据改写后的公司名称获取公司信息。
[0014]可选的,所述根据当前用户的历史查询记录对输入的公司名称进行改写,包括:根据当前用户的历史查询记录,统计当前用户输入过的所有公司名称以及相应频次;根据当前输入的公司名称,对历史输入的所有公司名称进行相似度匹配,获取相似度结果;判断是否存在频次高于预设频次阈值并且相似度结果大于预设相似度阈值的历史输入公司名称,若是,则对满足条件的所有历史输出公司名称按频次和相似度进行综合排序,选取排名最高的公司名称作为改写公司名称;若否,则输出提示信息,所述提示信息表示输入名称有误请重新输入。
[0015]第二方面,本申请提供一种同行召回系统,包括:数据获取模块(101),用于获取用户输入的公司名称,并根据公司名称获取公司信息,所述公司信息包括公司的产品词,所述产品词附带有对应的权重;分词模块(102),对公司的产品词进行分词,并根据分词结果结合对应权重生成搜索项;第一召回模块(103),用于基于搜索项,通过预设的搜索库进行搜索匹配,获取第一组召回结果;数据编码模块(104),对公司的产品词通过预设的编码方式进行编码,获取词向量;第二召回模块(105),用于通过产品词对应的权重对词向量进行加权,以生成企业向量,然后根据企业向量,通过相似向量检索库进行召回,获取第二组召回结果;结果输出模块(106),用于输出第一组召回结果和第二组召回结果。
[0016]第三方面,本申请提供一种计算机可读存储介质,存储有能够被处理器加载并执行上述一种同行召回方法的计算机程序。
[0017]综上所述,本申请通过在公司产品词的基础上,设计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种同行召回方法,其特征在于,包括:获取用户输入的公司名称,并根据公司名称获取公司信息,所述公司信息包括公司的产品词,所述产品词附带有对应的权重;对公司的产品词进行分词,并根据分词结果结合对应权重生成搜索项;基于搜索项,通过预设的搜索库进行搜索匹配,获取第一组召回结果;对公司的产品词通过预设的编码方式进行编码,获取词向量;通过产品词对应的权重对词向量进行加权,以生成企业向量;根据企业向量,通过相似向量检索库进行召回,获取第二组召回结果;输出第一组召回结果和第二组召回结果。2.根据权利要求1所述的一种同行召回方法,其特征在于,所述搜索项包括第一搜索项和第二搜索项,所述对公司的产品词进行分词,并根据分词结果结合对应权重生成搜索项,包括:对公司的所有产品词进行分词并去掉虚词,记剩下的产品词为第一主题词;对公司的所有产品词进行分词,对每一个分词结果以从后往前的顺序去掉虚词,并将去掉虚词的最后一个词记为第二主题词;分别对第一主题词和第二主题词统计词频,将每个词的词频与对应权重相乘,记为该词的重要度;根据所有的第一主题词和各词对应的重要度,获取第一搜索项;根据所有的第二主题词和各词对应的重要度,获取第二搜索项。3.根据权利要求2所述的一种同行召回方法,其特征在于,所述基于搜索项,通过预设的搜索库进行搜索匹配,获取第一组召回结果,包括:基于第一主题词,通过第一预设搜索匹配方式进行匹配搜索,并对搜索结果根据各词对应的重要度进行排序,获取第一搜索结果集;基于第二主题词,通过第二预设搜索匹配方式进行匹配搜索,并对搜索结果根据各词对应的重要度进行排序,获取第二搜索结果集;将第一搜索结果集和第二搜索结果集合并为第一组召回结果。4.根据权利要求1所述的一种同行召回方法,其特征在于,所述获取用户输入的公司名称,并根据公司名称获取公司信息之后,还包括:对输入公司的所有产品词根据权重进行筛选,获取高分词;对于每一个高分词,通过预设的词性分词方式进行划分,获取对应的一组局部高分词;对每一组局部高分词,通过预设的替换方法进行词替换,并对替换后的词进行重组,获取重组高分词;对所有的重组高分词通过预设的编码方式进行编码,获取重组词向量;基于重组词向量,通过相似向量检索库进行召回,获取第三组召回结果。5.根据权利要求4所述的一种同行召回方法,其特征在于,所述对每一组局部高分词,通过预设的替换方法进行词替换,并对替换后的词进行重组,获取重组高分词,包括:对每一组局部高分词,通过预设的替换方式进行词替换,获取多组局部替换高分词,并形成局部替换高分词集合;对每一组局部高分词,通过预设的编码方式进行编码,获取基准词向量;
遍历局部替换高分词集合,对于每一组局部替换高分词,通过预设的编码方式进行编码,获取替换词向量;对基准词向量...

【专利技术属性】
技术研发人员:包智曾思亮蔡子哲
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1