数据标记系统及数据标记方法技术方案

技术编号:24683999 阅读:174 留言:0更新日期:2020-06-27 08:07
一种数据标记系统及数据标记方法。此数据标记系统包括一标记数据库、一未标记数据库、一标记数据扩增模块,及一操作平台,该操作平台信号连接该标记数据库、该未标记数据库及该标记数据扩增模块,并且包括一标记模式编修接口,且该标记模式编修接口可供输入数据与执行编修操作以产生至少一确认标记模式,其中该标记数据扩增模块依据该至少一确认标记模式与该未标记数据库执行运算以产生至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库。

Data marking system and method

【技术实现步骤摘要】
数据标记系统及数据标记方法
本专利技术涉及一种数据处理系统以及一种数据处理方法。
技术介绍
大部分人工智能的运作,需要经过训练与学习,通常是利用标记数据作为训练学习的样本。随着市场应用的需求,当人工智能要解决更复杂的问题时,为了维持相当的精确度,势必需要更大量的标记数据,而且人工智能在不同领域的运用时,所需要的标记数据也有所差异,因此人工智能更广泛的应用及更佳的表现,需依赖大量的标记数据作为后盾。数据标记常见的做法是人工标记,相当耗费人力与时间成本,为了能缩短开发时间或成本而发展了自动标记的技术作为辅助。目前自动标记的运作是采用递归的方式,也就是标记系统对文本执行自动标记预测后,人工对整个文本的预测结果进行检视与校对,再将校对后的预测结果回授给系统以建立预测模块,此作法是由人工对文本的完整预测结果进行校对,在校对的数据为整个文本而数据量偏大的情况下,较容易发生校对不完全,错误的标记数据持续累积,将对系统表现造成影响。
技术实现思路
本专利技术提供一种数据标记系统,以及一种数据标记方法。在一示范的实施例中,本专利技术提供一种数据标记系统,包括一标记数据库、一未标记数据库、一标记数据扩增模块,及一操作平台,该操作平台信号连接该标记数据库、该未标记数据库及该标记数据扩增模块,并且包括一标记模式编修接口,且该标记模式编修接口可供输入数据与执行编修操作以产生至少一确认标记模式,其中该标记数据扩增模块依据该至少一确认标记模式与该未标记数据库执行运算以产生至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库。在一示范的实施例中,本专利技术提供一种数据标记方法,适用于一数据标记系统,并包括接收数据或编修操作、依据接收的该数据或编修操作,产生至少一确认标记模式、依据该至少一确认标记模式与一未标记数据库执行运算以产生至少一新增标记数据,及将该至少一新增标记数据储存至一标记数据库。基于上述,本专利技术实施例提出的数据标记系统及数据标记方法,其中该操作平台可接收编修操作以产生确认标记模式,并且该标记数据扩增模块是依据经过编修操作后产生的确认标记模式来执行运算,以产生新增标记数据而扩增该标记数据库,同时提高标记数据库中的正确度。为让本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明。附图说明图1是依据本专利技术一实施例绘示的数据标记系统的方框图;图2是依据本专利技术一实施例绘示的数据标记方法的流程图;图3是依据本专利技术另一实施例绘示的数据标记系统的方框图;图4是依据本专利技术另一实施例绘示的数据标记方法的流程图;图5是依据本专利技术另一实施例绘示的数据标记系统的方框图;图6是依据本专利技术另一实施例绘示的数据标记方法的流程图;图7是依据本专利技术另一实施例绘示的数据标记系统的方框图;图8是依据本专利技术另一实施例绘示的数据标记方法的流程图;图9是依据本专利技术另一实施例绘示的数据标记系统的方框图;图10是依据本专利技术另一实施例绘示的数据标记方法的流程图;图11是依据本专利技术另一实施例绘示的数据标记系统的方框图;图12是依据本专利技术另一实施例绘示的数据标记方法的流程图。符号说明:1数据标记系统2标记数据库3未标记数据库4标记数据扩增模块41扩增单元42标记模式数据集43标记模式生成单元5操作平台51标记模式编修接口52数据标记预测接口53人工标记接口6自动数据标记模块S1~S5步骤S11、S21~S24、S31、S51、S52、S61~S63、S71、S72步骤具体实施方式在本案说明书全文(包括权利要求)中所使用的“信号连接”一词可指任何直接或间接的连接手段。举例而言,若文中描述处理器信号连接于储存器,则应该被解释成该处理器可以直接连接于该储存器,或者该处理器可以透过其他装置或某种连接手段而间接地连接至该储存器。另外,凡可能之处,在附图及实施方式中使用相同标号的组件/构件/步骤代表相同或类似部分。不同实施例中使用相同标号或使用相同用语的组件/构件/步骤可以相互参照相关说明。图1是依据本专利技术的一实施例绘示的数据标记系统1。所述数据标记系统1包括一标记数据库2、一未标记数据库3、一标记数据扩增模块4,及信号连接该标记数据库2、该未标记数据库3及该标记数据扩增模块4的一操作平台5。其中,该标记数据库2用以储存已被标记的数据,而该未标记数据库3则用以储存未被标记的数据。该操作平台5包括一标记模式编修接口51,并且该标记模式编修接口51可供输入数据与执行编修操作以产生至少一确认标记模式。本实施例的操作平台5可供用户输入数据与执行编辑、新增及删减,此外该操作平台5还可以经由应用程序编程接口输入数据以与执行编辑、新增及删减。该标记数据扩增模块4依据该至少一确认标记模式与该未标记数据库3执行运算以产生至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库2,以扩充该标记数据库2。进一步参照图2,其是依据本专利技术的一实施例绘示的数据标记方法的流程图,并适用于图1所示的数据标记系统1。本实施例的数据标记方法的步骤说明如下:执行步骤S1,该操作平台5的标记模式编修接口51接收数据或编修操作后,执行步骤S2,该标记模式编修接口51依据接收的数据或编修操作产生至少一确认标记模式。而所述确认标记模式为标记模式(pattern)数据,其定义了执行数据标记的规则。接着执行步骤S3,该标记数据扩增模块4依据该至少一确认标记模式与该未标记数据库3执行运算以产生该至少一新增标记数据,并且执行步骤S4,将该至少一新增标记数据储存至该标记数据库2。具体而言,在本实施例的步骤S3、S4中,该标记数据扩增模块4是依据该至少一确认标记模式对该未标记数据库3中的数据执行标记算法,以标记该未标记数据库3中的数据,并产生该至少一新增标记数据,进而将产生的新增标记数据储存至该标记数据库2以扩增该标记数据库2。图1和图2所示的数据标记系统1及数据标记方法,可用以处理语料数据、影像数据或声音数据。在用以处理语料数据的情况下,该未标记数据库3为语料数据库,并且该标记数据库2是标记语料库,也就是储存被标记完成的语料数据。而该确认标记模式则是用以标记语料数据,其可包括词形信息、句法信息及语意信息等其中至少之一。所述标记模式具体上的数据形式,以3C产品的产品保固相关的标记模式为例,可以是[*Number*‘-Year’,‘Limited’,‘Warranty’],其中*Number*表示数值类语意类别。在图1和图2所示的数据标记系统1及数据标记方法用以处理影像数据的情况下,该未标记数据库3为影像数据库,并且该标记数据库2是标记影像数据库,也就是储存被标记完成的影像数据。而该确认标记模式则是可用以对影像数据进行标记的规则,其可包括特征信息、线条信息、光源信息、轮廓信息、色彩信息及材质信息等其中至少之一本文档来自技高网...

【技术保护点】
1.一种数据标记系统,包括:/n标记数据库;/n未标记数据库;/n标记数据扩增模块;及/n操作平台,信号连接该标记数据库、该未标记数据库及该标记数据扩增模块,并包括标记模式编修接口,且该标记模式编修接口可供输入数据与执行编修操作以产生至少一确认标记模式;/n其中,该标记数据扩增模块依据该至少一确认标记模式与该未标记数据库执行运算以产生至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库。/n

【技术特征摘要】
20181219 TW 1071458161.一种数据标记系统,包括:
标记数据库;
未标记数据库;
标记数据扩增模块;及
操作平台,信号连接该标记数据库、该未标记数据库及该标记数据扩增模块,并包括标记模式编修接口,且该标记模式编修接口可供输入数据与执行编修操作以产生至少一确认标记模式;
其中,该标记数据扩增模块依据该至少一确认标记模式与该未标记数据库执行运算以产生至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库。


2.根据权利要求1所述的数据标记系统,其中该标记模式编修接口显示至少一候选标记模式,并依据该至少一候选标记模式及用户对该至少一候选标记模式的编修操作,产生该至少一确认标记模式。


3.根据权利要求2所述的数据标记系统,其中该标记数据扩增模块包括:
标记模式生成单元,信号连接该标记模式编修接口,并依据该未标记数据库执行模式生成算法以产生该至少一候选标记模式;及
扩增单元,信号连接该标记模式编修接口,并依据该未标记数据库及该至少一确认标记模式执行标记算法以产生该至少一新增标记数据,并将该至少一新增标记数据储存至该标记数据库。


4.根据权利要求1所述的数据标记系统,还包括信号连接该标记数据库的自动数据标记模块,其中该操作平台还包括:
数据标记预测接口,可供输入未标记数据并显示预测结果;
其中,该自动数据标记模块依据该标记数据库对该未标记数据执行数据标记预测,并将对应该未标记数据的预测结果传送至该数据标记预测接口。


5.根据权利要求1所述的数据标记系统,其中该标记模式编修接口可供用户输入至少一标记模式,并且将输入的该至少一标记模式设为该至少一确认标记模式。


6.根据权利要求1所述的数据标记系统,其中该编修操作包括修改、新增及删减其中至少之一。


7.根据权利要求1所述的数据标记系统,其中该操作平台还包括可供输入未标记数据及执行数据标记的人工标记接口,该人工标记接口可显示该未标记数据,并将用户对该未标记数据执行数据标记的结果储存至该标记数据库。


8.根据权利要求1所述的数据标记系统,其中该标记数据库是语料标记数据库、影像标记数据库或声音标记数据库,且该未标记数据库为语料数据库、影像数据库或声音数据库,并且该至少一确认标记模式是语料标记模式、影像标记模式或声音标记模式。


9.根据权利要求2所述的数据标记系统,其中该至少一候选标记模式是语料标记模式、影像标记模式或声音标记模式。


10.根据权利要求1所述的数据标记系统,其中该至少一确认标记模式包括词形信息、句法信息及语意信息其中至少之一,或特征信息、线条信息、光源信息、轮廓信息、色彩信息及材质信息其中至少之一,或能量信息、音频信息、节奏信息及语言信息其中至少之一。


11.根据权利要求2所述的数据标记系统,其中该至少一候选标记模式包括词形信息、句法信息及语意信息其中至少之一,或特征信息、线条信息、光源信息、轮廓信息、色彩信息及材质信息其中至少之一,或能量信息、音频信息、节奏信息及语言信息其中至少之一。


12.根据权利要求5所述的数据标记系统,其中用户输入的该至少一标记模式包括词形信息、句法信息及语意信息其中至少之一,或特征信息、线条信息、光源信息、轮廓信息、色彩信息及材质信息其中至少之一,或能量信息、音频信息、节奏信息及语言信息其中至少之一。


13.根据权利要求4或7所述的数据标记系统,其中该未标记数据是文字数据、影像数据或声音数据。


14.一种数...

【专利技术属性】
技术研发人员:张如莹林柏霖潘桓毅谢佳恩黄玟瑜
申请(专利权)人:财团法人工业技术研究院
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1