【技术实现步骤摘要】
数据标记系统及数据标记方法
本专利技术涉及一种数据处理系统以及一种数据处理方法。
技术介绍
大部分人工智能的运作,需要经过训练与学习,通常是利用标记数据作为训练学习的样本。随着市场应用的需求,当人工智能要解决更复杂的问题时,为了维持相当的精确度,势必需要更大量的标记数据,而且人工智能在不同领域的运用时,所需要的标记数据也有所差异,因此人工智能更广泛的应用及更佳的表现,需依赖大量的标记数据作为后盾。数据标记常见的做法是人工标记,相当耗费人力与时间成本,为了能缩短开发时间或成本而发展了自动标记的技术作为辅助。目前自动标记的运作是采用递归的方式,也就是标记系统对文本执行自动标记预测后,人工对整个文本的预测结果进行检视与校对,再将校对后的预测结果回授给系统以建立预测模块,此作法是由人工对文本的完整预测结果进行校对,在校对的数据为整个文本而数据量偏大的情况下,较容易发生校对不完全,错误的标记数据持续累积,将对系统表现造成影响。
技术实现思路
本专利技术提供一种数据标记系统,以及一种数据标记方法。在一示范的实施例中,本专利技术提供一种数据标记系统,包括一标记数据库、一未标记数据库、一标记数据扩增模块,及一操作平台,该操作平台信号连接该标记数据库、该未标记数据库及该标记数据扩增模块,并且包括一标记模式编修接口,且该标记模式编修接口可供输入数据与执行编修操作以产生至少一确认标记模式,其中该标记数据扩增模块依据该至少一确认标记模式与该未标记数据库执行运算以产生至少一新增标记数据,并将该至少一新增标记 ...
【技术保护点】
1.一种数据标记系统,包括:/n标记数据库;/n未标记数据库;/n标记数据扩增模块;及/n操作平台,信号连接该标记数据库、该未标记数据库及该标记数据扩增模块,并包括标记模式编修接口,且该标记模式编修接口可供输入数据与执行编修操作以产生至少一确认标记模式;/n其中,该标记数据扩增模块依据该至少一确认标记模式与该未标记数据库执行运算以产生至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库。/n
【技术特征摘要】
20181219 TW 1071458161.一种数据标记系统,包括:
标记数据库;
未标记数据库;
标记数据扩增模块;及
操作平台,信号连接该标记数据库、该未标记数据库及该标记数据扩增模块,并包括标记模式编修接口,且该标记模式编修接口可供输入数据与执行编修操作以产生至少一确认标记模式;
其中,该标记数据扩增模块依据该至少一确认标记模式与该未标记数据库执行运算以产生至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库。
2.根据权利要求1所述的数据标记系统,其中该标记模式编修接口显示至少一候选标记模式,并依据该至少一候选标记模式及用户对该至少一候选标记模式的编修操作,产生该至少一确认标记模式。
3.根据权利要求2所述的数据标记系统,其中该标记数据扩增模块包括:
标记模式生成单元,信号连接该标记模式编修接口,并依据该未标记数据库执行模式生成算法以产生该至少一候选标记模式;及
扩增单元,信号连接该标记模式编修接口,并依据该未标记数据库及该至少一确认标记模式执行标记算法以产生该至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库。
4.根据权利要求1所述的数据标记系统,还包括信号连接该标记数据库的自动数据标记模块,其中该操作平台还包括:
数据标记预测接口,可供输入未标记数据并显示预测结果;
其中,该自动数据标记模块依据该标记数据库对该未标记数据执行数据标记预测,并将对应该未标记数据的预测结果传送至该数据标记预测接口。
5.根据权利要求1所述的数据标记系统,其中该标记模式编修接口可供用户输入至少一标记模式,并且将输入的该至少一标记模式设为该至少一确认标记模式。
6.根据权利要求1所述的数据标记系统,其中该编修操作包括修改、新增及删减其中至少之一。
7.根据权利要求1所述的数据标记系统,其中该操作平台还包括可供输入未标记数据及执行数据标记的人工标记接口,该人工标记接口可显示该未标记数据,并将用户对该未标记数据执行数据标记的结果储存至该标记数据库。
8.根据权利要求1所述的数据标记系统,其中该标记数据库是语料标记数据库、影像标记数据库或声音标记数据库,且该未标记数据库为语料数据库、影像数据库或声音数据库,并且该至少一确认标记模式是语料标记模式、影像标记模式或声音标记模式。
9.根据权利要求2所述的数据标记系统,其中该至少一候选标记模式是语料标记模式、影像标记模式或声音标记模式。
10.根据权利要求1所述的数据标记系统,其中该至少一确认标记模式包括词形信息、句法信息及语意信息其中至少之一,或特征信息、线条信息、光源信息、轮廓信息、色彩信息及材质信息其中至少之一,或能量信息、音频信息、节奏信息及语言信息其中至少之一。
11.根据权利要求2所述的数据标记系统,其中该至少一候选标记模式包括词形信息、句法信息及语意信息其中至少之一,或特征信息、线条信息、光源信息、轮廓信息、色彩信息及材质信息其中至少之一,或能量信息、音频信息、节奏信息及语言信息其中至少之一。
12.根据权利要求5所述的数据标记系统,其中用户输入的该至少一标记模式包括词形信息、句法信息及语意信息其中至少之一,或特征信息、线条信息、光源信息、轮廓信息、色彩信息及材质信息其中至少之一,或能量信息、音频信息、节奏信息及语言信息其中至少之一。
13.根据权利要求4或7所述的数据标记系统,其中该未标记数据是文字数据、影像数据或声音数据。
14.一种数...
【专利技术属性】
技术研发人员:张如莹,林柏霖,潘桓毅,谢佳恩,黄玟瑜,
申请(专利权)人:财团法人工业技术研究院,
类型:发明
国别省市:中国台湾;71
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。