对实体词的语义关系进行分类的方法、装置和电子设备制造方法及图纸

技术编号：17007444 阅读：37 留言：0更新日期：2018-01-11 03:49

本申请实施例提供一种对文本序列中实体词的语义关系进行分类的方法、装置和电子设备，该装置包括：第一获得单元，其用于将文本序列中的每个词用词向量表示，以构建第一矩阵；第二获得单元，其利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵；第三获得单元，其利用注意力模型，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；分类单元，其至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。根据本实施例，能够提高分类效率。

全部详细技术资料下载

【技术实现步骤摘要】
对实体词的语义关系进行分类的方法、装置和电子设备
本申请涉及信息
，尤其涉及一种对文本序列中实体词的语义关系进行分类的方法、装置和电子设备。
技术介绍
实体词的语义关系分类是指，确定文本序列中的实体词之间的语义关系属于预定的语义关系中的哪一类，该预定的语义关系例如可以是上位概念与下位概念的关系、动宾关系等，例如，在句子“<e1>机器<e1>产生了大量<e2>噪音<e2>”中，确定实体词e1与实体词e2的关系为：因-果(e1，e2)。在自然语言处理领域，实体词的语义关系分类较受关注，因为语义关系分类在信息抽取、信息检索、机器翻译、问答、知识库建设和语义消歧等任务中都有重要的应用价值。在现有的实体词的语义关系分类方法中，可以利用基于长短期记忆(Long-ShortTermMemory，LSTM)单元的递归神经网络(RecurrentNeuralNetwork，RNN)模型来进行分类，该模型能有效利用序列数据中长距离依赖信息的能力，因此对于文本序列数据的处理非常有效。应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
本申请的专利技术人发现，在语义关系分类任务重，句子中的其它词对实体词的重要程度是不同的，对于分类结果的影响也是不同的。当文本序列中的词的数量较少时，现有的实体词的...
对实体词的语义关系进行分类的方法、装置和电子设备

【技术保护点】
一种对文本序列中实体词的语义关系进行分类的装置，该装置包括：第一获得单元，其用于将文本序列中的每个词用词向量表示，以构建第一矩阵；第二获得单元，其利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵，其中，所述第二矩阵的行或列与所述文本序列中的词对应；第三获得单元，其利用注意力模型，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；以及分类单元，其至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。

【技术特征摘要】
1.一种对文本序列中实体词的语义关系进行分类的装置，该装置包括：第一获得单元，其用于将文本序列中的每个词用词向量表示，以构建第一矩阵；第二获得单元，其利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵，其中，所述第二矩阵的行或列与所述文本序列中的词对应；第三获得单元，其利用注意力模型，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；以及分类单元，其至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。2.如权利要求1所述的装置，其中，所述第三获得单元包括：选择单元，其利用注意力模型，确定所述文本序列中每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出预定数量的词；以及合并单元，其用于将所述第二矩阵中与选择出的所述预定数量的词对应的向量合并，以形成所述第三矩阵。3.如权利要求2所述的装置，其中，所述选择单元包括：第一合并子单元，其用于将所述第二矩阵中的实体词对应的向量与所述第二矩阵合并，形成第四矩阵；第一处理子单元，其对所述第四矩阵进行非线性处理，以确定所述文本序列每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出第一预定数量的词；以及第二处理子单元，其将所述第二矩阵中与选择出的所述第一预定数量的词对应的向量与所述第二矩阵合并，形成更新后的第四矩阵，并基于更新后的第四矩阵从所述文本序列中再次选择出第一预定数量的词，其中，所述第一处理子单元选择出的第一预定数量的词和所述第二处理子单元选择出的第一预定数量的词的总和等于所述预定数量。4.如权利要求1所述的装置，其中，所述第三获得单元包括：确定单元，其利用注意力模型，确定所述文本序列中每个词的受关注程度；以及处理单元，根据所述受关注程度所对应的权重值，对所述第二矩阵进行处理，以形成所述第三矩阵。5.如权利要求1所述的...

【专利技术属性】
技术研发人员：张姝，杨铭，孙俊，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人