一种实体的别名挖掘方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32131933 阅读:18 留言:0更新日期:2022-01-29 19:32
本发明专利技术涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。在本实施例中,所述方法包括:获取用户行为数据、用户播放声音的数据,所述用户行为数据包括检索点击行为数据、播放行为数据;基于用户行为数据,抽取会话数据;从检索点击行为数据、用户播放声音的数据中抽取实体;基于会话数据、实体、用户播放声音的数据构造样本,并输入词向量模型训练得到实体向量;基于实体向量之间的余弦相似度、编辑距离、拼音的编辑距离识别实体的别名。采用引入用户行为数据的方式构造表示模型样本数据,提升了实体的embedding效果,解决了实体的多词一义的问题,能够挖掘出实体精确度更高的别名,且不需要大量人力,维护成本低。维护成本低。维护成本低。

【技术实现步骤摘要】
一种实体的别名挖掘方法、装置、计算机设备和存储介质


[0001]本专利技术涉及自然语言处理
,尤其是涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
[0003]目前,基于实体的别名挖掘主要有以下两种方法:
[0004]1、基于知识库的实体的别名挖掘方法
[0005]该方法借助已有知识库(比如《哈工大信息检索研究室同义词词林扩展版》、HowNet等)得到别名。
[0006]缺点:
[0007]知识库覆盖率有限,不是每个细分领域都有;
[0008]不具备从文本中自动进行别名发现的能力,从而导致不存在于知识库的词语召回率较低;
[0009]没有考虑词的语义;
[0010]知识库需要大量的人力物力,维护成本高,并且需要大量的专家知识。
[0011]2、基于文本上下文相关性的实体的别名挖掘方法
[0012]该方法的基本思想是,如果两个词的上下文越相似的话,那么一个词是另一个词别名的概率就越大。使用词向量挖掘别名是比较常见的做法,比如使用word2vec训练得到词向量,然后再计算余弦相似度,取最相似的top k个词,就得到了其k个别名。
[0013]缺点:
[0014]没有考虑用户行为;
[0015]挖掘的别名很多都不是真正意义上的别名,需要人工筛选;
[0016]对于词频较低的词效果较差。

技术实现思路

[0017]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种实体的别名挖掘方法、装置、计算机设备和存储介质,能够挖掘出实体精确度更高的别名。
[0018]第一方面,本专利技术实施例提供了一种实体的别名挖掘方法,所述方法包括以下步骤:
[0019]获取用户行为数据、用户播放声音的数据,所述用户行为数据包括检索点击行为数据、播放行为数据;
[0020]基于用户行为数据,抽取会话数据;
[0021]从检索点击行为数据、用户播放声音的数据中抽取实体;
[0022]基于会话数据、实体、用户播放声音的数据构造样本,并输入词向量模型训练得到实体向量;
[0023]基于实体向量之间的余弦相似度、编辑距离、拼音的编辑距离识别实体的别名。
[0024]可选地,所述基于用户行为数据,抽取会话数据,包括:
[0025]基于检索点击行为数据抽取点击会话数据;
[0026]基于播放行为数据抽取播放会话数据。
[0027]可选地,所述检索点击行为数据包括用户信息、检索行为数据;所述基于检索点击行为数据抽取点击会话数据,包括:
[0028]基于在预设操作时间间隔用户的检索行为数据抽取点击会话数据。
[0029]可选地,所述播放行为数据包括用户信息、用户点击播放时间以及声音的播放时长。
[0030]可选地,所述基于播放行为数据抽取播放会话数据,包括:
[0031]基于播放行为数据抽取基础播放会话数据;
[0032]基于基础播放会话数据生成图,并通过频繁子图挖掘获得频繁子图;
[0033]基于频繁子图生成扩充播放会话数据。
[0034]可选地,所述检索点击行为数据包括用户的检索词,所述用户播放声音的数据包括声音唯一标识、标题、描述、标签、主播唯一标识;所述从检索点击行为数据、用户播放声音的数据中抽取实体,包括:
[0035]从检索词、标题、描述中抽取实体。
[0036]可选地,所述实体的别名挖掘方法还包括:
[0037]将实体的别名与预先构建的别名知识库进行融合,以对实体的别名进行补全。
[0038]第二方面,本专利技术实施例提供了一种实体的别名挖掘装置,所述装置包括:
[0039]数据获取模块,用于获取用户行为数据、用户播放声音的数据,所述用户行为数据包括检索点击行为数据、播放行为数据;
[0040]会话数据抽取模块,用于基于用户行为数据,抽取会话数据;
[0041]实体抽取模块,用于从检索点击行为数据、用户播放声音的数据中抽取实体;
[0042]实体向量表示模块,用于基于会话数据、实体、用户播放声音的数据构造样本,并输入词向量模型训练得到实体向量;
[0043]别名识别模块,用于基于实体向量之间的余弦相似度、编辑距离、拼音的编辑距离识别实体的别名。
[0044]可选地,会话数据抽取模块包括:
[0045]点击会话数据抽取子模块,用于基于检索点击行为数据抽取点击会话数据;
[0046]播放会话数据抽取子模块,用于基于播放行为数据抽取播放会话数据。
[0047]可选地,所述检索点击行为数据包括用户信息、检索行为数据;所述点击会话数据抽取子模块还用于基于在预设操作时间间隔用户的检索行为数据抽取点击会话数据。
[0048]可选地,所述播放行为数据包括用户信息、用户点击播放时间以及声音的播放时长。
[0049]可选地,所述播放会话数据抽取子模块还用于:
[0050]基于播放行为数据抽取基础播放会话数据;
[0051]基于基础播放会话数据生成图,并通过频繁子图挖掘获得频繁子图;
[0052]基于频繁子图生成扩充播放会话数据。
[0053]可选地,所述检索点击行为数据包括用户的检索词,所述用户播放声音的数据包括声音唯一标识、标题、描述、标签、主播唯一标识;实体抽取模块还用于从检索词、标题、描述中抽取实体。
[0054]可选地,所述装置还包括:
[0055]别名融合模块,用于将实体的别名与预先构建的别名知识库进行融合,以对实体的别名进行补全。
[0056]第三方面,本专利技术实施例提供了一种计算机设备,所述计算机设备包括:
[0057]一个或多个处理器;
[0058]存储器,用于存储一个或多个程序;
[0059]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述的实体的别名挖掘方法。
[0060]第四方面,本专利技术实施例提供了一种计算机可读存储介质。
[0061]所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的实体的别名挖掘方法。
[0062]在本实施例中,通过获取用户行为数据、用户播放声音的数据,所述用户行为数据包括检索点击行为数据、播放行为数据;基于用户行为数据,抽取会话数据;从检索点击行为数据、用户播放声音的数据中抽取实体;基于会话数据、实体、用户播放声音的数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体的别名挖掘方法,其特征在于,包括:获取用户行为数据、用户播放声音的数据,所述用户行为数据包括检索点击行为数据、播放行为数据;基于用户行为数据,抽取会话数据;从检索点击行为数据、用户播放声音的数据中抽取实体;基于会话数据、实体、用户播放声音的数据构造样本,并输入词向量模型训练得到实体向量;基于实体向量之间的余弦相似度、编辑距离、拼音的编辑距离识别实体的别名。2.基于权利要求1所述的方法,其特征在于,所述基于用户行为数据,抽取会话数据,包括:基于检索点击行为数据抽取点击会话数据;基于播放行为数据抽取播放会话数据。3.基于权利要求2所述的方法,其特征在于,所述检索点击行为数据包括用户信息、检索行为数据;所述基于检索点击行为数据抽取点击会话数据,包括:基于在预设操作时间间隔用户的检索行为数据抽取点击会话数据。4.基于权利要求2所述的方法,其特征在于,所述播放行为数据包括用户信息、用户点击播放时间以及声音的播放时长。5.基于权利要求4所述的方法,其特征在于,所述基于播放行为数据抽取播放会话数据,包括:基于播放行为数据抽取基础播放会话数据;基于基础播放会话数据生成图,并通过频繁子图挖掘获得频繁子图;基于频繁子图生成扩充播放会话数据。6.基于权利要求1所述的方法,其特征在于:所述检索点击行为数据包括用户的检索词,所述用户播放声音的数据包括声音唯一标识、标题、描...

【专利技术属性】
技术研发人员:谭又伟丁宁
申请(专利权)人:广州欢聊网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1