【技术实现步骤摘要】
应用于实体信息识别的模型训练方法、装置和设备
[0001]本公开涉及人工智能中的自然语言处理、知识图谱、知识挖掘和大数据等领域,尤其涉及一种应用于实体信息识别的模型训练方法、装置和设备。
技术介绍
[0002]随着数字技术和互联网技术的飞速发展,会产生大量的文本数据。需要对文本数据中的实体信息进行识别,以根据所得到的实体信息进行相应的后续处理。后续处理,例如是,进行信息的推送处理,或者进行非法信息的识别处理,或者进行其他处理。其中,实体信息例如是具体的时间信息、具体的地点信息、等等。
[0003]可以基于大量的数据进行模型的训练,进而得到用于识别文本中的实体信息的实体识别模型。
[0004]如何快速完成的实体识别模型的训练,是一个亟需解决的问题。
技术实现思路
[0005]本公开提供了一种用于提高实体识别模型的训练速度的应用于实体信息识别的模型训练方法、装置和设备。
[0006]根据本公开的第一方面,提供了一种应用于实体信息识别的模型训练方法,包括:
[0007]获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;
[0008]对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;
[0009]根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所 ...
【技术保护点】
【技术特征摘要】
1.一种应用于实体信息识别的模型训练方法,包括:获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。2.根据权利要求1所述的方法,其中,对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,包括:根据所述待训练的文本集合中的待训练文本中字符所属于的词语、以及所述待训练的文本集合中的待训练文本中字符所属于的词语的词性,对所述待训练的文本集合进行聚类处理,得到文本簇集合,所述文本簇集合中包括至少一个待处理文本簇;对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇。3.根据权利要求2所述的方法,其中,对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇,包括:响应于用户的第一触发指令,其中,所述第一触发指令用于显示所述文本簇集合中的待处理文本簇的待训练文本,显示所述第一触发指令所指示的待训练文本;响应于用户的第二触发指令,其中,所述第二触发指令用于剔除待处理文本簇,所述第二触发指令所指示的待处理文本簇中的待训练文本不具有实体信息,剔除所述第二触发指令所指示的待处理文本簇。4.根据权利要求3所述的方法,其中,所述第一触发指令用于显示所述文本簇集合中的待处理文本簇中的前N个待训练文本;其中,N为大于等于1的正整数。5.根据权利要求2所述的方法,其中,对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇,包括:识别所述文本簇集合中的待处理文本簇中的前N个待训练文本中的实体信息;其中,N为大于等于1的正整数;剔除前N个待训练文本不具有实体信息的待处理文本簇。6.根据权利要求1
‑
5任一项所述的方法,其中,根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型,包括:对所述待处理文本簇中的待训练文本进行抽取处理,得到所述待处理文本簇中的待训练文本的实体信息和非实体信息;根据所述待训练文本的实体信息和非实体信息,对所述待训练文本进行标注处理,得到所述待训练文本的向量信息;其中,所述向量信息中包括待训练文本的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息;根据所述待训练文本的向量信息,对所述初始模型进行训练,得到所述实体识别模型。7.根据权利要求6所述的方法,其中,对所述待处理文本簇中的待训练文本进行抽取处理,得到所述待处理文本簇中的待训练文本的实体信息和非实体信息,包括:
根据预设的正则表达式,对所述待处理文本簇中的待训练文本进行上下文信息的处理,得到所述待处理文本簇中的待训练文本的实体信息;其中,所述预设的正则表达式用于指示与文本中的实体信息之间具有上下文关系的上下文信息;所述待处理文本簇中的待训练文本的实体信息具有实体类别;根据所述待处理文本簇中的待训练文本的实体信息,确定所述待处理文本簇中的待训练文本的剩余字符,为所述待处理文本簇中的待训练文本的非实体信息。8.根据权利要求6或7所述的方法,其中,所述待处理文本簇中的待训练文本的实体信息具有实体类别;根据所述待训练文本的实体信息和非实体信息,对所述待训练文本进行标注处理,得到所述待训练文本的向量信息,包括:根据所述待训练文本的实体信息的实体类别、以及所述待训练文本中的字符次序,对所述待训练文本的实体信息进行标注处理,得到所述待训练文本的实体信息的标注信息;并根据非实体信息的预设标注符号,对所述待训练文本的非实体信息进行标注处理,得到所述待训练文本的非实体信息的标注信息;根据所述待训练文本中的字符、所述待训练文本的实体信息的标注信息、以及所述待训练文本的非实体信息的标注信息,生成所述待训练文本的向量信息。9.根据权利要求8所述的方法,其中,所述向量信息中包括字符向量和标注向量;其中,所述字符向量表征待训练文本的字符;所述标注向量表征实体信息的标注信息、以及待训练文本的非实体信息的标注信息。10.根据权利要求9所述的方法,其中,生成所述待训练文本的字符向量,包括:根据预设的字符字典,确定所述待训练文本中字符的字符编号;其中,所述预设的字符字典中包括至少一个字符,所述字符字典中的字符为所述至少一个待处理文本簇中的字符,所述字符字典中的字符不重复;所述预设的字符字典用于指示字符与字符编号之间的对应关系;根据所述待训练文本中字符的字符编号,生成所述待训练文本的字符向量。11.根据权利要求9或10所述的方法,其中,生成所述待训练文本的标注向量,包括:根据预设的标注字典,确定所述待训练文本的标注数据;其中,所述标注数据包括实体信息的标注信息的标注编号、以及非实体信息的标注信息的标注编号;所述预设的标注字典用于指示标注信息与标注编号之间的对应关系;根据所述待训练文本的标注数据,生成所述待训练文本的标注向量。12.根据权利要求6
‑
11任一项所述的方法,其中,根据所述待训练文本的向量信息,对所述初始模型进行训练,得到所述实体识别模型,包括:基于所述初始模型中的双向长短期记忆网络层,对所述待训练文本的向量信息进行上下文信息的捕获处理,得到上下文特征信息;其中,所述上下文特征信息表征所述待训练文本的上下文信息;基于所述初始模型中的全连接层,对所述上下文特征信息进行处理,得到概率信息,其中,所述概率信息表征待训练文本中的字符在不同的标注信息下的概率值的分布情况;根据所述概率信息,确定预测结果,其中,所述预测结果用于指示所述待训练文本中的实体信息和非实体信息;根据所述预测结果、以及所述待训练文本的向量信息中的标注信息,对所述初始模型
的参数进行调整,得到所述实体识别模型。13.根据权利要求12所述的方法,其中,根据所述概率信息,确定预测结果,包括:基于所述初始模型中的条件随机场层,对所述概率信息进行处理,得到状态转移矩阵;其中,所述状态转移矩阵表征待训练文本中的字符在不同的标注信息下转移至相邻字符的标注信息的转移概率;对所述状态转移矩阵进行解码处理,得到所述预测结果。14.根据权利要求12所述的方法,其中,根据所述概率信息,确定预测结果,包括:针对所述待训练文本中的字符,确定所述概率信息中与该字符对应的最大概率值下的标注信息,为该字符的标注信息;根据所得到的标注信息,生成所述预测结果。15.根据权利要求1
‑
14任一项所述的方法,其中,所述待训练的文本集合中的待训练文本中的词语为向量化表示的词语;所述获取待训练的文本集合,包括:获取初始文本集合,所述初始文本集合中包括多个初始文本;对所述初始文本进行分词处理,得到分词处理后的初始文本,其中,所述分词处理后的初始文本中的词语具有词性;对所述分词处理后的初始文本进行向量化处理,得到所述待训练的文本集合中的待训练文本。16.根据权利要求15所述的方法,其中,对所述分词处理后的初始文本进行向量化处理,得到所述待训练的文本集合中的待训练文本,包括:确定所述分词处理后的初始文本中的词语的频率信息,其中,所述频率信息表征词语的出现频率;根据所述分词处理后的初始文本中的词语的词性,确定所述分词处理后的初始文本中的词语的权重信息;对所述分词处理后的初始文本中的词语的频率信息、以及权重信息进行向量化表示处理,得到所述待训练的文本集合中的待训练文本。17.根据权利要求16所述的方法,其中,所述频率信息包括第一频率信息和第二频率信息;其中,所述第一频率信息表征分词处理后的初始文本中的词语,在该分词处理后的初始文本中的出现频率;所述第二频率信息表征分词处理后的初始文本中的词语,在所述初始文本集合中的出现频率。18.根据权利要求15
‑
17任一项所述的方法,其中,在对所述初始文本进行分词处理,得到分词处理后的初始文本之前,还包括:对所述初始文本集合中的初始文本进行伪随机采样处理,得到采样后的初始文本集合;其中,所述采样后的初始文本集合中的初始文本的总个数,小于采样前的初始文本集合中的初始文本的总个数;对所述采样后的初始文本集合中的初始文本进行数据清洗处理,得到处理后的初始文本集合。19.一种基于文本的实体信息识别方法,包括:获取待识别文本;
根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息;其中,所述实体识别模型为根据权利要求1
‑
18任一项所述的方法所得到的模型。20.根据权利要求19所述的方法,其中,根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息,包括:将所述待识别文本输入至所述实体识别模型中,输出所述待识别文本中词语的标注编号;根据预设的标注字典,其中,所述预设的标注字典用于指示标注信息与标注编号之间的对应关系,确定与所述待识别文本中词语的标注编号对应的标注信息;其中,所述标注信息用于指示出实体信息或非实体信息;根据所确定的标注信息,确定所述待识别文本中的实体信息。21.一种应用于实体信息识别的模型训练装置,包括:第一获取单元,用于获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;聚类单元,用于对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所...
【专利技术属性】
技术研发人员:宋永浩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。