基于表示学习命名实体识别方法、系统、设备和存储介质技术方案

技术编号：32008538 阅读：14 留言：0更新日期：2022-01-22 18:25

基于表示学习命名实体识别方法、系统、设备和存储介质，根据句子级别的注意力机制，得到基于字符信息的词向量；将基于字符信息的词向量与词所在句子的特征向量拼接起来，并作为输入送入Bi

全部详细技术资料下载

【技术实现步骤摘要】
基于表示学习命名实体识别方法、系统、设备和存储介质

[0001]本专利技术涉及自然语言处理
，具体涉及一种基于表示学习命名实体识别方法、系统、设备和存储介质。

技术介绍

[0002](1)基于规则的方法
[0003]在命名实体识别(NER)概念出现的早期，NER的研究工作大多是基于人工构建的规则，对文本中的字符串进行规则匹配，进而筛选出符合条件的实体。基于规则的提取实体方式最典型就是Rau,L.F.(1991)提出了用复杂的语言学规则不断去判断字符串是否为公司名称实体，这也是命名实体识别正式成为一种任务的标志；在那之后，Collins等陆续提出使用机器自动发现规则并进行匹配的方法，其首先规定7个简单的种子规则，随后运用DLCoTrain方法自动的发现更多的规则，最终进行相关实体的提取；除此之外，部分研究者还提出了将规则和统计模型相结合的实体提取方法，使用一个形式化半马尔科夫提取过程来扩展外部字典，进而用外部字典中实体进行相似性匹配来提取文本中的新实体。基于规则的方法虽然准确度相对较高，但由于基于规则的方法构建实体识别模型的领域性强以及模型复杂性过高等问题，近年来，研究者逐渐将目光聚焦在可迁移性更强的基于统计的方法，与此同时，伴随着机器学习的兴起，NER任务也逐渐演变成了机器学习的一个子任务。
[0004](2)基于统计的方法
[0005]近年来，运用统计模型来进行命名实体的识别已经成为主流，具体分为识别实体边界与序列化标注的方法。
[0006]识别实体边界方面，Li等使用了Bdr...

【技术保护点】

【技术特征摘要】
1.一种基于表示学习命名实体识别方法，其特征在于，包括以下步骤：根据句子级别的注意力机制，得到基于字符信息的词向量；将基于字符信息的词向量与词所在句子的特征向量拼接起来，并作为输入送入Bi
‑
LSTM模型中进行训练，得到训练后的模型；采用训练后的模型进行申请文档的命名实体识别。2.根据权利要求1所述的基于表示学习命名实体识别方法，其特征在于，根据句子级别的注意力机制，得到基于字符信息的词向量的具体过程为：根据词语的词频
‑
逆文档频率值得到申请文档分词后的词语权重，然后根据词语权重使用预训练模型RoBERTa加载申请文档分词后词语的向量。3.根据权利要求1所述的基于表示学习命名实体识别方法，其特征在于，根据句子级别的注意力机制，得到基于字符信息的词向量的具体过程为：采用cw2vec笔画模型将汉字拆分为一个个笔画，根据当前词语c与上下文词w的相似度假定已知中心词出现上下文词的概率，并根据中心词出现上下文词的概率通过负采样操作，得到对数目标函数L，如式(3)所示；其中，V为语料库中的所有词语表，T(w)为当前中心词w所在窗口的所有上下文词，σ为sigmoid函数，α为负采样操作得到的负样本个数，E为求期望，t为负采样操作得到样本；通过梯度下降算法优化对数目标函数L，并更新上下文词向量，得到基于字符信息的词向量。4.根据权利要求2所述的基于表示学习命名实体识别方法，其特征在于，词所在句子的特征向量通过以下过程得到：将每一个词在文档级别的权重与词经预训练模型RoBERTa输出的词向量加权相乘后相加，得到词所在句子对应的特征向量。5.根据权利要求2所述的基于表示学习命名实体识别方法，其特征在于，申请文档分词后的词语权重通过下式计算得到：重通过下式计算得到：重通过下式计算得到：TF
–
IDF(i...

【专利技术属性】
技术研发人员：蔡迪，李慧斌，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人