应用于实体信息识别的模型训练方法、装置和设备制造方法及图纸

技术编号:33888866 阅读:21 留言:0更新日期:2022-06-22 17:22
本公开提供了应用于实体信息识别的模型训练方法、装置和设备,涉及人工智能领域,尤其涉及自然语言处理、知识图谱、知识挖掘和大数据等领域。具体实现方案为:获取待训练的文本集合,待训练的文本集合中包括多个待训练文本,待训练文本中包括多个字符;对待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,待处理文本簇中包括至少一个待训练文本,待处理文本簇中的待训练文本具有语义相似性;待处理文本簇中的待训练文本具有至少一个实体信息;根据待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。通过上述方法,提高实体识别模型的训练速度。提高实体识别模型的训练速度。提高实体识别模型的训练速度。

【技术实现步骤摘要】
应用于实体信息识别的模型训练方法、装置和设备


[0001]本公开涉及人工智能中的自然语言处理、知识图谱、知识挖掘和大数据等领域,尤其涉及一种应用于实体信息识别的模型训练方法、装置和设备。

技术介绍

[0002]随着数字技术和互联网技术的飞速发展,会产生大量的文本数据。需要对文本数据中的实体信息进行识别,以根据所得到的实体信息进行相应的后续处理。后续处理,例如是,进行信息的推送处理,或者进行非法信息的识别处理,或者进行其他处理。其中,实体信息例如是具体的时间信息、具体的地点信息、等等。
[0003]可以基于大量的数据进行模型的训练,进而得到用于识别文本中的实体信息的实体识别模型。
[0004]如何快速完成的实体识别模型的训练,是一个亟需解决的问题。

技术实现思路

[0005]本公开提供了一种用于提高实体识别模型的训练速度的应用于实体信息识别的模型训练方法、装置和设备。
[0006]根据本公开的第一方面,提供了一种应用于实体信息识别的模型训练方法,包括:
[0007]获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;
[0008]对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;
[0009]根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。
[0010]根据本公开的第二方面,提供了一种基于文本的实体信息识别方法,包括:
[0011]获取待识别文本;
[0012]根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息;
[0013]其中,所述实体识别模型为根据第一方面所述的方法所得到的模型。
[0014]根据本公开的第三方面,提供了一种应用于实体信息识别的模型训练装置,包括:
[0015]第一获取单元,用于获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;
[0016]聚类单元,用于对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;
[0017]训练单元,用于根据所述待处理文本簇,对初始模型进行训练,得到实体识别模
型;其中,所述实体识别模型用于识别待识别文本中的实体信息。
[0018]根据本公开的第四方面,提供了一种基于文本的实体信息识别装置,包括:
[0019]第二获取单元,用于获取待识别文本;
[0020]处理单元,用于根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息;
[0021]其中,所述实体识别模型为根据第三方面所述的装置所得到的模型。
[0022]根据本公开的第五方面,提供了一种电子设备,包括:
[0023]至少一个处理器;以及
[0024]与所述至少一个处理器通信连接的存储器;其中,
[0025]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法,或者,以使所述至少一个处理器能够执行第二方面所述的方法。
[0026]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法,或者,所述计算机指令用于使所述计算机执行第二方面所述的方法。
[0027]根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法,或者,所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法。
[0028]根据本公开的技术提高了实体识别模型的训练速度。
[0029]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0031]图1是根据本公开第一实施例的示意图;
[0032]图2是根据本公开第二实施例的示意图;
[0033]图3是根据本公开第三实施例的示意图;
[0034]图4是根据本公开第四实施例的示意图;
[0035]图5是根据本公开第五实施例的示意图;
[0036]图6是根据本公开第六实施例的示意图;
[0037]图7是根据本公开第七实施例的示意图;
[0038]图8是根据本公开第八实施例的示意图;
[0039]图9是用来实现本公开实施例的应用于实体信息识别的模型训练方法、或者基于文本的实体信息识别方法的电子设备的框图。
具体实施方式
[0040]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种
细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0041]目前,随着互联网技术的发展,越来越多的网络应用中出现了大量的文本数据。通常在对文本数据进行处理时,会对文本数据中的实体信息进行识别,进而可以基于识别到的文本数据中的实体信息进行后续处理。举例来说,可以基于文本数据中的实体信息对文本数据进行语法分析、机器翻译。又或者是可以基于文本数据中所提供的实体信息进行信息推送,或者是非法信息的识别,例如确定该文本数据是否为诈骗文本等。文本数据中的实体信息可以为:人名、机构名、地名、日期等。
[0042]相关技术中,在识别文本数据中的实体信息时,可以通过人为标注大量的样本数据集,即人为对样本数据集中的各文本数据中的实体信息进行标注之后,基于标注后的样本数据集对所构建的实体识别模型进行训练。
[0043]然而,在上述实体识别模型的训练过程中,需要耗费大量人工进行数据标注且耗时较长,进而导致实体识别模型的训练耗时较长。此外,人工进行大量数据标注时,容易标注出错,进而导致实体识别模型的所确定的识别结果的准确度较低。
[0044]为了避免上述技术问题中的至少一种,本公开的专利技术人经过创造性地劳动,得到了本公开的专利技术构思:通过对获取到的待训练文本进行聚类处理之后,得到至少一个待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于实体信息识别的模型训练方法,包括:获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。2.根据权利要求1所述的方法,其中,对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,包括:根据所述待训练的文本集合中的待训练文本中字符所属于的词语、以及所述待训练的文本集合中的待训练文本中字符所属于的词语的词性,对所述待训练的文本集合进行聚类处理,得到文本簇集合,所述文本簇集合中包括至少一个待处理文本簇;对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇。3.根据权利要求2所述的方法,其中,对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇,包括:响应于用户的第一触发指令,其中,所述第一触发指令用于显示所述文本簇集合中的待处理文本簇的待训练文本,显示所述第一触发指令所指示的待训练文本;响应于用户的第二触发指令,其中,所述第二触发指令用于剔除待处理文本簇,所述第二触发指令所指示的待处理文本簇中的待训练文本不具有实体信息,剔除所述第二触发指令所指示的待处理文本簇。4.根据权利要求3所述的方法,其中,所述第一触发指令用于显示所述文本簇集合中的待处理文本簇中的前N个待训练文本;其中,N为大于等于1的正整数。5.根据权利要求2所述的方法,其中,对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇,包括:识别所述文本簇集合中的待处理文本簇中的前N个待训练文本中的实体信息;其中,N为大于等于1的正整数;剔除前N个待训练文本不具有实体信息的待处理文本簇。6.根据权利要求1

5任一项所述的方法,其中,根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型,包括:对所述待处理文本簇中的待训练文本进行抽取处理,得到所述待处理文本簇中的待训练文本的实体信息和非实体信息;根据所述待训练文本的实体信息和非实体信息,对所述待训练文本进行标注处理,得到所述待训练文本的向量信息;其中,所述向量信息中包括待训练文本的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息;根据所述待训练文本的向量信息,对所述初始模型进行训练,得到所述实体识别模型。7.根据权利要求6所述的方法,其中,对所述待处理文本簇中的待训练文本进行抽取处理,得到所述待处理文本簇中的待训练文本的实体信息和非实体信息,包括:
根据预设的正则表达式,对所述待处理文本簇中的待训练文本进行上下文信息的处理,得到所述待处理文本簇中的待训练文本的实体信息;其中,所述预设的正则表达式用于指示与文本中的实体信息之间具有上下文关系的上下文信息;所述待处理文本簇中的待训练文本的实体信息具有实体类别;根据所述待处理文本簇中的待训练文本的实体信息,确定所述待处理文本簇中的待训练文本的剩余字符,为所述待处理文本簇中的待训练文本的非实体信息。8.根据权利要求6或7所述的方法,其中,所述待处理文本簇中的待训练文本的实体信息具有实体类别;根据所述待训练文本的实体信息和非实体信息,对所述待训练文本进行标注处理,得到所述待训练文本的向量信息,包括:根据所述待训练文本的实体信息的实体类别、以及所述待训练文本中的字符次序,对所述待训练文本的实体信息进行标注处理,得到所述待训练文本的实体信息的标注信息;并根据非实体信息的预设标注符号,对所述待训练文本的非实体信息进行标注处理,得到所述待训练文本的非实体信息的标注信息;根据所述待训练文本中的字符、所述待训练文本的实体信息的标注信息、以及所述待训练文本的非实体信息的标注信息,生成所述待训练文本的向量信息。9.根据权利要求8所述的方法,其中,所述向量信息中包括字符向量和标注向量;其中,所述字符向量表征待训练文本的字符;所述标注向量表征实体信息的标注信息、以及待训练文本的非实体信息的标注信息。10.根据权利要求9所述的方法,其中,生成所述待训练文本的字符向量,包括:根据预设的字符字典,确定所述待训练文本中字符的字符编号;其中,所述预设的字符字典中包括至少一个字符,所述字符字典中的字符为所述至少一个待处理文本簇中的字符,所述字符字典中的字符不重复;所述预设的字符字典用于指示字符与字符编号之间的对应关系;根据所述待训练文本中字符的字符编号,生成所述待训练文本的字符向量。11.根据权利要求9或10所述的方法,其中,生成所述待训练文本的标注向量,包括:根据预设的标注字典,确定所述待训练文本的标注数据;其中,所述标注数据包括实体信息的标注信息的标注编号、以及非实体信息的标注信息的标注编号;所述预设的标注字典用于指示标注信息与标注编号之间的对应关系;根据所述待训练文本的标注数据,生成所述待训练文本的标注向量。12.根据权利要求6

11任一项所述的方法,其中,根据所述待训练文本的向量信息,对所述初始模型进行训练,得到所述实体识别模型,包括:基于所述初始模型中的双向长短期记忆网络层,对所述待训练文本的向量信息进行上下文信息的捕获处理,得到上下文特征信息;其中,所述上下文特征信息表征所述待训练文本的上下文信息;基于所述初始模型中的全连接层,对所述上下文特征信息进行处理,得到概率信息,其中,所述概率信息表征待训练文本中的字符在不同的标注信息下的概率值的分布情况;根据所述概率信息,确定预测结果,其中,所述预测结果用于指示所述待训练文本中的实体信息和非实体信息;根据所述预测结果、以及所述待训练文本的向量信息中的标注信息,对所述初始模型
的参数进行调整,得到所述实体识别模型。13.根据权利要求12所述的方法,其中,根据所述概率信息,确定预测结果,包括:基于所述初始模型中的条件随机场层,对所述概率信息进行处理,得到状态转移矩阵;其中,所述状态转移矩阵表征待训练文本中的字符在不同的标注信息下转移至相邻字符的标注信息的转移概率;对所述状态转移矩阵进行解码处理,得到所述预测结果。14.根据权利要求12所述的方法,其中,根据所述概率信息,确定预测结果,包括:针对所述待训练文本中的字符,确定所述概率信息中与该字符对应的最大概率值下的标注信息,为该字符的标注信息;根据所得到的标注信息,生成所述预测结果。15.根据权利要求1

14任一项所述的方法,其中,所述待训练的文本集合中的待训练文本中的词语为向量化表示的词语;所述获取待训练的文本集合,包括:获取初始文本集合,所述初始文本集合中包括多个初始文本;对所述初始文本进行分词处理,得到分词处理后的初始文本,其中,所述分词处理后的初始文本中的词语具有词性;对所述分词处理后的初始文本进行向量化处理,得到所述待训练的文本集合中的待训练文本。16.根据权利要求15所述的方法,其中,对所述分词处理后的初始文本进行向量化处理,得到所述待训练的文本集合中的待训练文本,包括:确定所述分词处理后的初始文本中的词语的频率信息,其中,所述频率信息表征词语的出现频率;根据所述分词处理后的初始文本中的词语的词性,确定所述分词处理后的初始文本中的词语的权重信息;对所述分词处理后的初始文本中的词语的频率信息、以及权重信息进行向量化表示处理,得到所述待训练的文本集合中的待训练文本。17.根据权利要求16所述的方法,其中,所述频率信息包括第一频率信息和第二频率信息;其中,所述第一频率信息表征分词处理后的初始文本中的词语,在该分词处理后的初始文本中的出现频率;所述第二频率信息表征分词处理后的初始文本中的词语,在所述初始文本集合中的出现频率。18.根据权利要求15

17任一项所述的方法,其中,在对所述初始文本进行分词处理,得到分词处理后的初始文本之前,还包括:对所述初始文本集合中的初始文本进行伪随机采样处理,得到采样后的初始文本集合;其中,所述采样后的初始文本集合中的初始文本的总个数,小于采样前的初始文本集合中的初始文本的总个数;对所述采样后的初始文本集合中的初始文本进行数据清洗处理,得到处理后的初始文本集合。19.一种基于文本的实体信息识别方法,包括:获取待识别文本;
根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息;其中,所述实体识别模型为根据权利要求1

18任一项所述的方法所得到的模型。20.根据权利要求19所述的方法,其中,根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息,包括:将所述待识别文本输入至所述实体识别模型中,输出所述待识别文本中词语的标注编号;根据预设的标注字典,其中,所述预设的标注字典用于指示标注信息与标注编号之间的对应关系,确定与所述待识别文本中词语的标注编号对应的标注信息;其中,所述标注信息用于指示出实体信息或非实体信息;根据所确定的标注信息,确定所述待识别文本中的实体信息。21.一种应用于实体信息识别的模型训练装置,包括:第一获取单元,用于获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;聚类单元,用于对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所...

【专利技术属性】
技术研发人员:宋永浩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1