基于知识图谱的钢铁电商数据精准搜索方法、介质及设备技术

技术编号:35090588 阅读:12 留言:0更新日期:2022-10-01 16:48
本发明专利技术涉及一种基于知识图谱的钢铁电商数据精准搜索方法、介质及设备,所述方法包括以下步骤:获取用户输入数据,采用一经训练的实体抽取模型对所述用户输入数据进行实体抽取;对抽取的实体进行实体对齐处理,构建与所述用户输入数据对应的实体链;基于所述实体链在预先构建的钢铁产品知识图谱进行查询,获得对应的商品信息;其中,所述实体抽取模型基于Word2Vec模型、Bi

【技术实现步骤摘要】
基于知识图谱的钢铁电商数据精准搜索方法、介质及设备


[0001]本专利技术涉及一种钢铁电商数据处理方法,尤其是涉及一种基于知识图谱的钢铁电商数据精准搜索方法、介质及设备。

技术介绍

[0002]现有的搜索引擎主要使用关键字匹配技术实现商品的搜索功能。使用这种技术搜索商品,在商品描述中必须包含搜索信息中的关键字字符,否则无法输出搜索的结果。特别是在钢铁电商领域中,这种搜索技术不能深层次地理解用户的意图,只能做到“搜得出”,无法实现“搜得准”。现有搜索引擎存在的问题简述如下:
[0003]1、搜索引擎中主要使用的是字符串匹配的技术实现商品的查找,这种通过“字符完全相同”实现的搜索方式,其对于多字符串难以评估优先级别,也无法识别字符串之间的联系,所获得的搜索结果准确率低,不具备对自然语言的理解能力。
[0004]2、当贸易商在挂货时填写的信息不规范,或对挂货的商品没有准确的属性描述时,关键词技术无法理解用户的“静默需求”,会导致用户检索不到合适的商品数据。
[0005]3、由于使用的是字符串匹配的方式,所以现有的搜索引擎不支持钢铁昵称和俗称的检索,不支持近似名词的推理能力。
[0006]4、由于没有专业的钢铁领域的分词技术和工具,当用户的查询语句中包含了多个商品属性信息时,这需要采购人员把用户询单中的专业词汇进行准确分解,这对采购人员的专业性要求高。
[0007]随着互联网的发展,交易数据越来越大,电商平台中的商品品类也越来越丰富,仅仅使用关键字匹配的技术来实现商品搜索功能,会对电商平台的货物流通效率有着较大的影响,也使得用户的体验度不佳。因此,钢铁电商平台的搜索能力需要不断优化和改进。

技术实现思路

[0008]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种提高商品的检索效率的基于知识图谱的钢铁电商数据精准搜索方法、介质及设备。
[0009]本专利技术的目的可以通过以下技术方案来实现:
[0010]第一方面,本专利技术提供一种基于知识图谱的钢铁电商数据精准搜索方法,该方法包括以下步骤:
[0011]获取用户输入数据,采用一经训练的实体抽取模型对所述用户输入数据进行实体抽取;
[0012]对抽取的实体进行实体对齐处理,构建与所述用户输入数据对应的实体链;
[0013]基于所述实体链在预先构建的钢铁产品知识图谱进行查询,获得对应的商品信息;
[0014]其中,所述实体抽取模型基于Word2Vec模型、Bi

LSTM模型和CRF模型构建。
[0015]进一步地,对所述用户输入数据进行分词处理后输入所述实体抽取模型中。
[0016]进一步地,训练所述实体抽取模型时采用的训练数据集基于用户历史购买信息获取,具体地:
[0017]将所述用户历史购买信息转化为非结构化输入数据,对该非结构化输入数据进行分词和词性标注,形成所述训练数据集。
[0018]进一步地,所述词性标注包括对实体类别的标注和实体位置的标注,所述词性标注使用BMEO准则进行。
[0019]进一步地,所述实体类别包括牌号、表面处理、表面结构、镀锌类型和镀锌量。
[0020]进一步地,所述钢铁产品知识图谱的构建具体为:
[0021]获取钢铁行业商品数据,每个商品分配有用于标识该商品属性聚合的唯一性编码,采用所述实体抽取模型对每个商品对应的商品数据进行实体抽取,形成实体链,该实体链具有实体表和关系表,将获得的实体链存储到图数据库中,形成所述钢铁产品知识图谱。
[0022]进一步地,所述图数据库采用Neo4j图数据库。
[0023]第二方面,本专利技术提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于知识图谱的钢铁电商数据精准搜索方法的指令。
[0024]第三方面,本专利技术提供一种电子设备,包括:
[0025]一个或多个处理器;
[0026]存储器;和
[0027]被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于知识图谱的钢铁电商数据精准搜索方法的指令。
[0028]进一步地,所述实体抽取模型固化成pb模型文件,在Docker容器引擎中拉取Tensorflow Serving镜像实现部署。
[0029]与现有技术相比,本专利技术具有如下有益效果:
[0030]1、本专利技术引进了知识图谱概念,结合专家数据库和数学模型,将商品数据存储到Neo4j图数据库中,并在图数据库中通过专家对于钢铁产品的理解构建了知识关系,通过算法实现了静默需求推理等能力,以此提高商品的检索效率,改善了钢铁电商平台的精准搜索方式,提高了业务平台的检索准确率和用户的满意度,使关键词技术无法直接匹配的场景,得以通过语义解析和需求推理的功能得以输出搜索结果,解决了部分从无到有的搜索能力。
[0031]2、本专利技术将深度学习中的Word2vec模型、Bi

LSTM模型、CRF模型相结合,使用钢铁电商行业的语料,训练了一个适用于钢铁电商领域的实体抽取模型,提高实体抽取精度,进而实现更精准的搜索。
[0032]3、本专利技术使用BMEO准则对数据进行更加详细的标注,从而进一步明确实体的边界,提高实体抽取模型的训练精度。
[0033]4、本专利技术使用知识图谱和实体抽取模型的同时,还利用TensorFlow Serving部署实体抽取模型,提高了钢铁电商业务平台的并发能力和响应时间,以此来提高用户的满意度。
[0034]5、本专利技术使得钢铁电商平台的检索更智能化,可以使用俗称搜索,可以部分属性缺省输入,从而降低了对采购人员专业性要求,促进了平台用户搜索转化率的有效提升,推
进钢铁电商交易行业的高效精准智能化服务应用,让钢材交易更简单有效。
附图说明
[0035]图1为本专利技术原理示意图。
具体实施方式
[0036]下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。
[0037]实施例1
[0038]本实施例提供一种基于知识图谱的钢铁电商数据精准搜索方法,该方法包括以下步骤:获取用户输入数据,采用一经训练的实体抽取模型对用户输入数据进行实体抽取;对抽取的实体进行实体对齐处理,构建与用户输入数据对应的实体链;基于实体链在预先构建的钢铁产品知识图谱进行查询,获得对应的商品信息。上述方法通过构建的实体抽取模型准确识别用户询单意图,结合知识图谱技术来改进商品数据的存储模式,实现需求推理的功能,可以改进电商平台的搜索能力,从真正意义上提高电商平台的搜索准确度和用户的满意度。
[0039]本实施例中,实体抽取模型基于Word2Vec模型、Bi

LSTM(双向Long Short

Te本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的钢铁电商数据精准搜索方法,其特征在于,该方法包括以下步骤:获取用户输入数据,采用一经训练的实体抽取模型对所述用户输入数据进行实体抽取;对抽取的实体进行实体对齐处理,构建与所述用户输入数据对应的实体链;基于所述实体链在预先构建的钢铁产品知识图谱进行查询,获得对应的商品信息;其中,所述实体抽取模型基于Word2Vec模型、Bi

LSTM模型和CRF模型构建。2.根据权利要求1所述的基于知识图谱的钢铁电商数据精准搜索方法,其特征在于,对所述用户输入数据进行分词处理后输入所述实体抽取模型中。3.根据权利要求1所述的基于知识图谱的钢铁电商数据精准搜索方法,其特征在于,训练所述实体抽取模型时采用的训练数据集基于用户历史购买信息获取,具体地:将所述用户历史购买信息转化为非结构化输入数据,对该非结构化输入数据进行分词和词性标注,形成所述训练数据集。4.根据权利要求3所述的基于知识图谱的钢铁电商数据精准搜索方法,其特征在于,所述词性标注包括对实体类别的标注和实体位置的标注,所述词性标注使用BMEO准则进行。5.根据权利要求4所述的基于知识图谱的钢铁电商数据精准搜索方法,其特征在于,所述实体类别包括牌号、表面处理、表面结构、镀锌类型和...

【专利技术属性】
技术研发人员:沈海伦陈茂建陆芊罗熊黄子阳
申请(专利权)人:欧冶云商股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1