当前位置: 首页 > 专利查询>中国人民解放军战略支援部队信息工程大学专利>正文

一种中文领域下基于词形和语义的负样本生成方法及装置制造方法及图纸

技术编号：35516503 阅读：17 留言：0更新日期：2022-11-09 14:33

本发明专利技术公开一种中文领域下基于词形和语义的负样本生成方法及装置，该方法包括：提取出中文百科知识图谱中的实体以及其周围一跳内的所有关系，将关系拼接在一起形成实体的描述信息文本；利用在中文语料上训练过的Word2Vec对实体和描述信息文本进行向量表示；将目标匹配实体和全部实体进行相似度匹配，返回符合条件的实体作为语义相似度候选实体集；将目标匹配实体再次和全部实体进行编辑距离的计算，返回符合条件的实体作为词形相似度候选实体集；根据语义相似度候选实体集和词形相似度候选实体集进行高混淆度负样本选取。本发明专利技术联合了词形相似度和语义相似度进行负样本选取，可以加速模型的收敛速度，还可以使模型训练出良好的决策边界。训练出良好的决策边界。训练出良好的决策边界。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文领域下基于词形和语义的负样本生成方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及一种中文领域下基于词形和语义的负样本生成方法及装置。

技术介绍

[0002]为了对全球快速增长的数据更好的利用，越来越多的科研人员致力于研究如何将这些信息更好的储存和查询。但是大量的数据是以自然语言形式存在的，而自然语言又是高度模糊的。为了将带有歧义的自然语言数据整理成信息并形式化为知识，FreeBase、DBpedia等知识库从网络上收集了大量信息，并使用三元组的形式将信息表示成知识。但是这种知识库往往需要一定的专业技能才能进行访问，这无疑提升了用户的使用门槛。而智能问答以知识库为中心对自然语言问题进行回答，为普通用户提供了一种简便的访问知识库的方法。智能问答的目标是将自然语言问题转化成结构化查询语句，并将知识图谱中的谓词关系或尾实体作为问题的答案返回。其中实体链接将问句中的非结构化知识与知识库中的结构化知识相链接，是智能问答中的关键组成部分。
[0003]与传统的实体链接不同，智能问答中的实体链接通常基于缺乏上下文信息的短文本问句，在智能问答中，实体链接的主流方法是使用一种pipeline结构，将任务分解为指称识别和实体消歧两部分，但由于一般情况下已有实体的量级非常大，将提及与知识库实体依次计算会导致较大的搜索空间。所以实体消歧又可以分为候选实体生成和候选实体排序两个模块。值得一提的是，实体消歧模型大多都基于相似度计算，并可以将其转化为二分类任务进行训练。具体来说，对于问句中的实体提及和知识库中的实...

【技术保护点】

【技术特征摘要】
1.一种中文领域下基于词形和语义的负样本生成方法，其特征在于，包括：步骤1：提取出中文百科知识图谱中的实体以及其周围一跳内的所有关系，将所述关系拼接在一起形成实体的描述信息文本；步骤2：利用在中文语料上训练过的Word2Vec对所述实体和描述信息文本进行向量表示；步骤3：将目标匹配实体和所有的实体进行相似度匹配，返回符合条件的实体作为语义相似度候选实体集；步骤4：将目标匹配实体再次和所有的实体进行编辑距离的计算，返回符合条件的实体作为词形相似度候选实体集；步骤5：根据语义相似度候选实体集和词形相似度候选实体集进行高混淆度的负样本选取。2.根据权利要求1所述的一种中文领域下基于词形和语义的负样本生成方法，其特征在于，所述步骤1包括：首先将正确的<实体
‑
提及>对中的实体提出，视作目标匹配实体；然后将中文百科知识图谱中的所有实体视作待匹配实体；最后用每个实体周围一跳的关系组成该实体的描述文本，对于目标匹配实体和待匹配实体，以“实体节点名称#消歧项#实体描述文本”表示实体。3.根据权利要求2所述的一种中文领域下基于词形和语义的负样本生成方法，其特征在于，所述步骤2包括：将步骤1中得到的以“实体节点名称#消歧项#实体描述文本”表示的实体进行分词，并利用在中文语料上训练过的Word2Vec得到的词向量对分词结果进行表示，并将向量表示结果进行拼接，作为实体的整体向量表示。4.根据权利要求3所述的一种中文领域下基于词形和语义的负样本生成方法，其特征在于，所述步骤3中，基于实体的整体向量...

【专利技术属性】
技术研发人员：李珠峰，刘铄，周刚，卢记仓，胡学先，兰明敬，王婧，张凯翔，张凤娟，陈静，夏毅，
申请(专利权)人：中国人民解放军战略支援部队信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人