一种实体的别名挖掘方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：32131933 阅读：29 留言：0更新日期：2022-01-29 19:32

本发明专利技术涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。在本实施例中，所述方法包括：获取用户行为数据、用户播放声音的数据，所述用户行为数据包括检索点击行为数据、播放行为数据；基于用户行为数据，抽取会话数据；从检索点击行为数据、用户播放声音的数据中抽取实体；基于会话数据、实体、用户播放声音的数据构造样本，并输入词向量模型训练得到实体向量；基于实体向量之间的余弦相似度、编辑距离、拼音的编辑距离识别实体的别名。采用引入用户行为数据的方式构造表示模型样本数据，提升了实体的embedding效果，解决了实体的多词一义的问题，能够挖掘出实体精确度更高的别名，且不需要大量人力，维护成本低。维护成本低。维护成本低。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体的别名挖掘方法、装置、计算机设备和存储介质

[0001]本专利技术涉及自然语言处理
，尤其是涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
[0003]目前，基于实体的别名挖掘主要有以下两种方法：
[0004]1、基于知识库的实体的别名挖掘方法
[0005]该方法借助已有知识库(比如《哈工大信息检索研究室同义词词林扩展版》、HowNet等)得到别名。
[0006]缺点：
[0007]知识库覆盖率有限，不是每个细分领域都有；
[0008]不具备从文本中自动进行别名发现的能力，从而导致不存在于知识库的词语召回率较低；
[0009]没有考虑词的语义；
[0010]知识库需要大量的人力物力，维护成本高，并且需要大量的专家知识。
[0011]2、基于文本上下文相关性的实体的别名挖掘方法
[0012]该方法的基本思想是，如果两个词的上下文越相似的话，那么一个词是另一个词别名的概率就越大。使用词向量挖掘别名是比较常见的做法，比如使用word2vec训练得到词向量，然后再计算余弦相似度，取最相似的...

【技术保护点】

【技术特征摘要】
1.一种实体的别名挖掘方法，其特征在于，包括：获取用户行为数据、用户播放声音的数据，所述用户行为数据包括检索点击行为数据、播放行为数据；基于用户行为数据，抽取会话数据；从检索点击行为数据、用户播放声音的数据中抽取实体；基于会话数据、实体、用户播放声音的数据构造样本，并输入词向量模型训练得到实体向量；基于实体向量之间的余弦相似度、编辑距离、拼音的编辑距离识别实体的别名。2.基于权利要求1所述的方法，其特征在于，所述基于用户行为数据，抽取会话数据，包括：基于检索点击行为数据抽取点击会话数据；基于播放行为数据抽取播放会话数据。3.基于权利要求2所述的方法，其特征在于，所述检索点击行为数据包括用户信息、检索行为数据；所述基于检索点击行为数据抽取点击会话数据，包括：基于在预设操作时间间隔用户的检索行为数据抽取点击会话数据。4.基于权利要求2所述的方法，其特征在于，所述播放行为数据包括用户信息、用户点击播放时间以及声音的播放时长。5.基于权利要求4所述的方法，其特征在于，所述基于播放行为数据抽取播放会话数据，包括：基于播放行为数据抽取基础播放会话数据；基于基础播放会话数据生成图，并通过频繁子图挖掘获得频繁子图；基于频繁子图生成扩充播放会话数据。6.基于权利要求1所述的方法，其特征在于：所述检索点击行为数据包括用户的检索词，所述用户播放声音的数据包括声音唯一标识、标题、描...

【专利技术属性】
技术研发人员：谭又伟，丁宁，
申请(专利权)人：广州欢聊网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人