The invention discloses a method and a device for acquiring a text extraction model, belonging to the field of machine learning technology. The method includes: obtaining the model to extract the first text, the first text extraction model based on the first training text annotation set; if the first extraction of text extraction accuracy below a preset threshold, get the collection of second training text, second training text set includes a plurality of first training corpus and a plurality of first target text through the first text extraction model from the first training corpus in the training text set; according to the first and second training text set, obtaining second text extraction model. The first text extraction model gets the second training text set, the process of acquiring text extraction model tends to be automatic because the model acquisition efficiency training text set much higher than the efficiency of manual annotation, so the acquisition method of the invention can greatly reduce the manpower cost and time cost.
【技术实现步骤摘要】
获取文本提取模型的方法及装置
本专利技术涉及机器学习
,特别涉及一种获取文本提取模型的方法及装置。
技术介绍
机器学习技术是指计算机通过归纳文本或图片等数据改善性能的技术,广泛地应用于数据挖掘、计算机视觉、自然语言处理和机器人等方面。例如,为使聊天机器人能够理解自然语言的意义,从而与用户之间进行交互,通常利用机器学习技术获取文本提取模型,并将文本提取模型应用于聊天机器人,使得聊天机器人从与用户的语料中提取出表达用户需求的文本,并对应该文本进行应答。一般地,在获取文本提取模型时,需要获取大量语料,并人工地从每个语料中标注出表达用户需求的文本,将大量语料和对应标注出的文本作为训练文本集合,进而对训练文本集合进行训练,从而基于标注出的文本在语料中的上下文等特征得到文本提取模型。其中,人工标注出的文本一般与聊天机器人所提供的服务的相关,例如,聊天机器人可提供票务服务,某个语料为“我要购买火车票”,则人工标注的文本为“火车票”。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:训练文本集合完全由人工标注的方式得到,由于获取文本提取模型所需的语料数据量庞大、人工标注的效率低,导致文本提取模型的训练过程会消耗大量人力成本和时间成本。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种获取文本提取模型的方法及装置。所述技术方案如下:一方面,提供了一种获取文本提取模型的方法,所述方法包括:获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第 ...
【技术保护点】
一种获取文本提取模型的方法,其特征在于,所述方法包括:获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第二训练文本集合包括多个第一训练语料和通过所述第一文本提取模型从所述多个第一训练语料中提取的多个第一目标文本;根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。
【技术特征摘要】
1.一种获取文本提取模型的方法,其特征在于,所述方法包括:获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第二训练文本集合包括多个第一训练语料和通过所述第一文本提取模型从所述多个第一训练语料中提取的多个第一目标文本;根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。2.根据权利要求1所述的方法,其特征在于,所述如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合包括:如果所述第一文本提取模型的提取准确度低于所述预设阈值,获取所述多个第一训练语料;对于所述多个第一训练语料中的每个第一训练语料,通过所述第一文本提取模型从所述第一训练语料中提取出第一文本;如果所述第一文本正确,将所述第一训练语料和所述第一文本作为所述第二训练文本集合中的一对训练文本;如果所述第一文本错误,将所述第一训练语料和人工修正的文本作为所述第二训练文本集合中的一对训练文本。3.根据权利要求2所述的方法,所述如果所述第一文本提取模型的提取准确度低于所述预设阈值,获取所述多个第一训练语料包括:如果所述第一文本提取模型的提取准确度低于所述预设阈值,从聊天数据库中获取预设时段内的对话语料,将所述预设时段内的对话预料作为所述多个第一训练语料,所述聊天数据库用于存储用户与聊天机器人之间的对话语料。4.根据权利要求2所述的方法,所述如果所述第一文本提取模型的提取准确度低于所述预设阈值,获取所述多个第一训练语料包括:如果所述第一文本提取模型的提取准确度低于所述预设阈值,从聊天数据库中筛选出对话成功的对话语料,将所述对话成功的对话预料作为所述多个第一训练语料,所述聊天数据库用于存储用户与聊天机器人之间的对话语料,所述对话成功的对话语料是指所述聊天机器人成功为所述用户提供服务的对话语料。5.根据权利要求1所述的方法,其特征在于,所述获取第二训练文本集合之前,所述方法还包括:获取测试文本集合,所述测试文本集合包括多个测试语料和人工从所述多个测试语料中标注出的多个正确文本;对于所述多个测试语料中的每个测试语料,通过所述第一文本提取模型从所述测试语料中提取出第二文本;将与任一正确文本相同的第二文本和所述多个正确文本的数量比例确定为所述第一文本提取模型的提取准确度。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型之后,所述方法还包括:如果当前的文本提取模型的提取准确度低于所述预设阈值,继续获取训练文本集合,并基于已获取的各个训练文本集合进行训练,直到训练得到的文本提取模型的提取准确度不低于所述预设阈值,所述训练文本集合包括多个第二训练语料和通过所述当前的文本提...
【专利技术属性】
技术研发人员:陈益,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。