System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种指标命名实体识别方法及装置制造方法及图纸_技高网

一种指标命名实体识别方法及装置制造方法及图纸

技术编号:41211687 阅读:19 留言:0更新日期:2024-05-09 23:34
本说明书公开了一种指标命名实体识别方法及装置。首先,获取与目标业务对应的文本数据以及与目标业务对应的知识图谱。然后,对文本数据进行分词处理,得到与文本数据对应的分词序列。将分词序列以及知识图谱输入到预先训练完成的命名实体识别模型中,以由命名实体识别模型提取与分词序列中包含的各个词语对应的文本特征、词语特征以及知识图谱特征,其中,词语特征是由与分词序列中包含的各个词语对应的词性特征以及结构特征构成。最后,对文本特征、词语特征以及知识图谱特征进行特征融合,并基于特征融合得到的融合特征识别文本数据包含的目标指标词语。本方法可以提高命名实体识别模型从文本数据中识别出指标词语的准确率。

【技术实现步骤摘要】

本说明书涉及计算机,尤其涉及一种指标命名实体识别方法及装置


技术介绍

1、命名实体识别(named entity recognition,ner)是自然语言处理领域的一个重要任务,用于识别文本中具有特定意义的命名实体,例如,人名、地名、组织机构名、时间、日期等。命名实体识别的主要作用是从非结构化的文本中抽取出具有指定类别的命名实体,为其他自然语言处理任务提供重要的信息支持。

2、在实际应用中,指标(例如准确率、访问量、订单数等)可以用于衡量、评估或表示某种现象、情况或进展的度量标准。从文本中识别出指标,可以帮助用户理解和分析数据,以做出明智的决策以及提高业务处理的效率。但是,由于中文命名实体存在结构复杂、形式多样、一词多义等问题,导致命名实体识别从文本中识别出指标词语的准确率较低。


技术实现思路

1、本说明书提供一种指标命名实体识别方法、装置、电子设备及机器可读存储介质,以提高命名实体识别从文本中识别出指标词语的准确率。

2、本说明书采用下述技术方案:

3、本说明书提供了一种指标命名实体识别方法,包括:

4、获取与目标业务对应的文本数据以及与所述目标业务对应的知识图谱,所述文本数据中包含至少一个与预设的业务指标对应的指标词语;

5、对所述文本数据进行分词处理,得到与所述文本数据对应的分词序列,所述分词序列中的各个词语的顺序为所述各个词语在所述文本数据中所处的位置;

6、将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的文本特征、词语特征以及知识图谱特征;其中,所述词语特征是由与所述分词序列中包含的各个词语对应的词性特征以及结构特征构成,所述结构特征用于表征词语的结构;以及,

7、对所述文本特征、所述词语特征以及所述知识图谱特征进行特征融合,并基于特征融合得到的融合特征识别所述文本数据包含的目标指标词语。

8、可选地,所述命名实体识别模型还包括文本特征提取层;

9、将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的文本特征,包括:

10、将所述分词序列输入到预先训练完成的编码层中,以由所述编码层编码得到与所述分词序列中包含的各个词语对应的编码特征;

11、将与所述分词序列中包含的各个词语对应的编码特征输入到所述文本特征提取层中,以按照所述分词序列中的各个词语在所述文本数据中所处的位置的正向顺序,对与所述分词序列中包含的各个词语对应的编码特征依次进行编码,得到与所述分词序列中的各个词语对应的正向编码特征;以及,按照所述分词序列中的各个词语在所述文本数据中所处的位置的反向顺序,对与所述分词序列中包含的各个词语对应的编码特征依次进行编码,得到与所述分词序列中的各个词语对应的反向编码特征;

12、将与所述分词序列中包含的各个词语对应的正向编码特征和反向编码特征进行拼接,得到与所述分词序列中包含的各个词语对应的双向编码特征,并将与所述分词序列中包含的各个词语对应的双向编码特征按照各个词语在所述分词序列中所处的位置进行拼接,得到与所述分词序列中包含的各个词语对应的文本特征。

13、可选地,将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的词语特征,包括:

14、对所述分词序列中包含的各个词语进行词性识别,得到所述分词序列中包含的各个词语的词性;

15、判断所述分词序列中包含的各个词语是否是与至少一种词性相关的词语,得到第一判断结果,并基于所述第一判断结果针对所述分词序列中包含的各个词语依次进行编码,得到与所述分词序列中包含的各个词语对应的词性特征;

16、判断所述分词序列中包含的各个词语是否包含有与至少一种业务指标相关的词尾,得到第二判断结果,并基于第二判断结果针对所述分词序列中包含的各个词语依次进行编码,得到与所述分词序列中包含的各个词语对应的结构特征;

17、将与所述分词序列中包含的各个词语对应的词性特征和结构特征进行拼接,得到与所述分词序列中包含的各个词语对应的构词特征,并基于与所述分词序列中包含的各个词语对应的构词特征进一步构建词语特征。

18、可选地,所述命名实体识别模型还包括词语特征提取层;

19、基于与所述分词序列中包含的各个词语对应的构词特征进一步构建词语特征,包括:

20、将与所述分词序列中包含的各个词语对应的构词特征输入到所述词语特征提取层中,以按照所述分词序列中包含的各个词语在所述文本数据中所处的位置的正向顺序,对与所述分词序列中包含的各个词语对应的构词特征依次进行编码,得到与所述分词序列中包含的各个词语对应的正向构词特征;以及,按照所述分词序列中包含的各个词语在所述文本数据中所处的位置的反向顺序,对与所述分词序列中包含的各个词语对应的构词特征依次进行编码,得到与所述分词序列中包含的各个词语对应的反向构词特征;

21、将与所述分词序列中包含的各个词语对应的正向构词特征和反向构词特征进行拼接,得到与所述分词序列中包含的各个词语对应的双向构词特征,并将与所述分词序列中包含的各个词语对应的双向构词特征按照各个词语在所述文本数据中所处的位置进行拼接,得到词语特征。

22、可选地,所述命名实体识别模型中维护了与所述目标业务对应的知识图谱;所述知识图谱包含用于表示与所述目标业务对应的业务实体的节点以及用于表示各业务实体之间的关系的边;所述命名实体识别模型还包括知识图谱特征提取层;

23、将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的知识图谱特征,包括:

24、从所述知识图谱中,确定与所述分词序列中的各个词语对应的知识图谱子图;

25、将与所述分词序列中的各个词语对应的知识图谱子图分别输入到所述知识图谱特征提取层中,以对与所述分词序列中的各个词语对应的知识图谱子图中的各邻居节点以及与各邻居节点对应的边进行编码,得到与所述分词序列中包含的各个词语对应的知识图谱特征。

26、可选地,所述命名实体识别模型还包括融合层;

27、对所述文本特征、所述词语特征以及所述知识图谱特征进行特征融合,包括:

28、将所述文本特征、所述词语特征以及所述知识图谱特征输入到所述融合层中,以确定所述文本特征与所述知识图谱特征之间的第一注意力权重,并根据所述第一注意力权重,对所述文本特征进行加权计算,得到所述文本特征与所述知识图谱特征之间的第一注意力特征;以及,

29、确定所述文本特征与所述词语特征之间的第二注意力权重,并根据所述第二注意力权重,对所述文本特征进行加权本文档来自技高网...

【技术保护点】

1.一种指标命名实体识别方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述命名实体识别模型还包括文本特征提取层;

3.如权利要求1所述的方法,其特征在于,将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的词语特征,包括:

4.如权利要求3所述的方法,其特征在于,所述命名实体识别模型还包括词语特征提取层;

5.如权利要求1所述的方法,其特征在于,所述命名实体识别模型中维护了与所述目标业务对应的知识图谱;所述知识图谱包含用于表示与所述目标业务对应的业务实体的节点以及用于表示各业务实体之间的关系的边;所述命名实体识别模型还包括知识图谱特征提取层;

6.如权利要求1所述的方法,其特征在于,训练所述命名实体识别模型,包括:

7.一种命名实体识别模型,其特征在于,包括:

8.一种指标命名实体识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;

10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种指标命名实体识别方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述命名实体识别模型还包括文本特征提取层;

3.如权利要求1所述的方法,其特征在于,将所述分词序列以及所述知识图谱输入到预先训练完成的命名实体识别模型中,以由所述命名实体识别模型提取与所述分词序列中包含的各个词语对应的词语特征,包括:

4.如权利要求3所述的方法,其特征在于,所述命名实体识别模型还包括词语特征提取层;

5.如权利要求1所述的方法,其特征在于,所述命名实体识别模型中维护了与所述目标业务对应的知识图谱;所述知识图谱包含用于表示与所述目标业务对应的业...

【专利技术属性】
技术研发人员:安毫亿杜春松谢素丹
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1