System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于无监督学习的搜索词联想方法及相关设备技术_技高网

一种基于无监督学习的搜索词联想方法及相关设备技术

技术编号:44660741 阅读:5 留言:0更新日期:2025-03-19 20:19
本发明专利技术提供一种基于无监督学习的搜索词联想方法及相关设备,当接收到用户输入的搜索词时,利用Word2Vec方法得到搜索词向量;计算通过无监督学习得到每一目标词向量与搜索词向量之间的相似度;每一目标词向量对应的一个目标词;基于相似度由大至小对各个目标词向量进行排序;将排序在预设次序之前的目标词向量对应的目标词作为备选搜索词。在本方案中,将搜索词与无监督学习方法得到的目标词进行比较,从而为用户提供相似的备选搜索词,与有监督学习方法不同,并不要求利用带标签的数据集进行训练,无需人工为分词标注标签,从而实现降低成本的目的。

【技术实现步骤摘要】

本专利技术涉及机器学习,具体涉及一种基于无监督学习的搜索词联想方法及相关设备


技术介绍

1、开放银行作为一种新兴的平台商业化模式,已经突破传统银行物理网点的限制,直接嵌入到人们的日常生活场景中。开放银行主要通过api、sdk、h5等方式,输出服务供第三方使用。在向外赋能的同时,建立自己的开放生态。门户网站作为合作方与开放银行对接的第一站,面向个人与企业客户,提供公告信息、开放银行服务介绍、开放产品信息、合作案例、行业解决方案、开放接口说明文档、开发工具下载、业务申请、营销广告等服务。合作方客户在使用门户网站时,必然会通过前端的搜索框搜索开放银行对接流程、接口分类、实现效果等信息,但是开放银行属于专业性较强的领域,存在一些合作方不了解、无法归纳总结的信息,针对这些信息,也无法准确地提炼出搜索关键词,从而导致搜索结果不准确,无法达到用户的期望。

2、现有技术中,利用有监督方法训练神经网络模型,根据用户输入的搜索词,得到与搜索词语义相似的词语供用户选择。有监督方法训练神经网络模型,需要大量由人工分词的训练集,针对开放银行领域,由于其专业性,为分词标注标签费时费力,从而导致实现成本较高。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种基于无监督学习的搜索词联想方法及相关设备,以实现无需人工为分词标注标签,从而降低成本的目的。

2、为实现上述目的,本专利技术实施例提供如下技术方案:

3、本专利技术实施例第一方面公开了一种基于无监督学习的搜索词联想方法,所述方法包括:

4、当接收到用户输入的搜索词时,利用word2vec方法得到搜索词向量;

5、计算通过无监督学习得到每一目标词向量与所述搜索词向量之间的相似度;每一所述目标词向量对应的一个目标词;

6、基于所述相似度由大至小对各个所述目标词向量进行排序;

7、将排序在预设次序之前的所述目标词向量对应的所述目标词作为备选搜索词。

8、优选的,通过无监督学习得到每一目标词向量的过程包括:

9、获取与开放银行相关的目标文本;

10、对所述目标文本进行分词处理,得到多个目标词;

11、针对每一所述目标词,利用word2vec方法得到对应的skip-gram向量;

12、针对每一所述目标词,获取所述目标词对应的外部知识,将所述外部知识补充到所述目标词对应的所述skip-gram向量中,得到目标词向量。

13、优选的,所述针对每一所述目标词,获取所述目标词对应的外部知识,将所述外部知识补充到所述目标词对应的所述skip-gram向量中,得到目标词向量,包括:

14、针对每一所述目标词,获取通过bert模型得到的所述目标词对应的bert向量;

15、对所述bert向量和所述目标词对应的skip-gram向量进行向量拼接处理,得到目标词向量。

16、优选的,所述计算通过无监督学习得到每一目标词向量与所述搜索词向量之间的相似度,包括:

17、针对通过无监督学习得到每一目标词向量,利用余弦函数计算所述目标词向量与所述搜索词向量之间的相似度。

18、优选的,所述方法还包括:

19、展示所述备选搜索词。

20、本专利技术实施例第二方面公开了一种基于无监督学习的搜索词联想装置,所述装置包括:

21、接收单元,当接收到用户输入的搜索词时,利用word2vec方法得到搜索词向量;

22、计算单元,用于计算通过无监督学习得到每一目标词向量与所述搜索词向量之间的相似度;每一所述目标词向量对应的一个目标词;

23、排序单元,用于基于所述相似度由大至小对各个所述目标词向量进行排序;

24、选取单元,用于将排序在预设次序之前的所述目标词向量对应的所述目标词作为备选搜索词。

25、优选的,所述装置还包括:

26、学习单元,用于获取与开放银行相关的目标文本;对所述目标文本进行分词处理,得到多个目标词;针对每一所述目标词,利用word2vec方法得到对应的skip-gram向量;针对每一所述目标词,获取所述目标词对应的外部知识,将所述外部知识补充到所述目标词对应的所述skip-gram向量中,得到目标词向量。

27、优选的,用于针对每一所述目标词,获取所述目标词对应的外部知识,将所述外部知识补充到所述目标词对应的所述skip-gram向量中,得到目标词向量的所述学习单元,具体用于:

28、针对每一所述目标词,获取通过bert模型得到的所述目标词对应的bert向量;

29、对所述bert向量和所述目标词对应的skip-gram向量进行向量拼接处理,得到目标词向量。

30、本专利技术实施例第三方面公开了一种存储介质,用于存储计算机程序,所述计算机程序被执行时,具体用于实现本专利技术实施例第一方面任一所述的基于无监督学习的搜索词联想方法。

31、本专利技术实施例第四方面公开了一种电子设备,包括:存储器和处理器;

32、所述存储器用于存储计算机程序;

33、所述处理器用于执行所述计算机程序,具体用于实现本专利技术实施例第一方面任一所述的基于无监督学习的搜索词联想方法。

34、基于上述本专利技术实施例提供的一种基于无监督学习的搜索词联想方法及相关设备,当接收到用户输入的搜索词时,利用word2vec方法得到搜索词向量;计算通过无监督学习得到每一目标词向量与所述搜索词向量之间的相似度;每一所述目标词向量对应的一个目标词;基于所述相似度由大至小对各个所述目标词向量进行排序;将排序在预设次序之前的所述目标词向量对应的所述目标词作为备选搜索词。在本方案中,将搜索词与无监督学习方法得到的目标词进行比较,从而为用户提供相似的备选搜索词,与有监督学习方法不同,并不要求利用带标签的数据集进行训练,无需人工为分词标注标签,从而实现降低成本的目的。

本文档来自技高网...

【技术保护点】

1.一种基于无监督学习的搜索词联想方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过无监督学习得到每一目标词向量的过程包括:

3.根据权利要求2所述的方法,其特征在于,所述针对每一所述目标词,获取所述目标词对应的外部知识,将所述外部知识补充到所述目标词对应的所述skip-gram向量中,得到目标词向量,包括:

4.根据权利要求1所述的方法,其特征在于,所述计算通过无监督学习得到每一目标词向量与所述搜索词向量之间的相似度,包括:

5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:

6.一种基于无监督学习的搜索词联想装置,其特征在于,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述装置还包括:

8.根据权利要求7所述的装置,其特征在于,用于针对每一所述目标词,获取所述目标词对应的外部知识,将所述外部知识补充到所述目标词对应的所述skip-gram向量中,得到目标词向量的所述学习单元,具体用于:

9.一种存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,具体用于实现如权利要求1至5任意一项所述的基于无监督学习的搜索词联想方法。

10.一种电子设备,其特征在于,包括:存储器和处理器;

...

【技术特征摘要】

1.一种基于无监督学习的搜索词联想方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过无监督学习得到每一目标词向量的过程包括:

3.根据权利要求2所述的方法,其特征在于,所述针对每一所述目标词,获取所述目标词对应的外部知识,将所述外部知识补充到所述目标词对应的所述skip-gram向量中,得到目标词向量,包括:

4.根据权利要求1所述的方法,其特征在于,所述计算通过无监督学习得到每一目标词向量与所述搜索词向量之间的相似度,包括:

5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:

【专利技术属性】
技术研发人员:李彦哲
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1