一种在线人工文本标记系统及方法,其特征在于:系统包括自然语言处理工具库、数据库、文本数据搜集及预处理模块、服务器模块和操作模块。实施本发明专利技术的技术方案可解决现有技术中缺乏自动数据管理、纯人工标记效率低、正确率低、缺少多类型文本标记支持的技术问题;方法上通过自动标记服务对于文本源进行结构化预处理以及自动标记程序,通过自然语言处理算法配合质量控制模块以及人工干预,可实现在线进行高效、高正确率、提供自动数据管理和多场景应用的技术效果。
【技术实现步骤摘要】
一种在线人工文本标记系统及方法
本专利技术涉及数据工程领域、自然语言处理领域和计算机辅助系统领域,特别涉及一种在线人工文本标记系统及方法。
技术介绍
文本标记工具的基本功能是对自然语言文本(以下简称为“文本”)中的要素进行标记,其目的是在保证正确性和效率的前提下,对文本中的要素(包括但不限于分词、实体、关系、补全成分)进行标记,并生成包含文本和标记信息的数据。一般地,在线浏览器-服务器方式的手工标记工具,即所有文本要素的标记都需要由人工操作完成,标记的校对审核也由人工操作完成。其结构组成包括:后台服务器,前端可视化模块。这种方式的主要问题在于以下缺点:1、效率低。纯手工标记方式依赖于标记人员的熟练度,标记大量数据需要投入极高的人力成本和时间成本。2、无法保证正确性。纯手工标记式的数据质量完全依赖于人工审核,有些平台的审核过程只能在平台外部实现。这种方式不仅效率低下,也容易由人为错误而误判,甚至引入新的错误。现有的文本标记平台主要有Brat,Anafora等。它们除了以上的缺点以外,还存在以下不足:1、可以标记的文本要素固定且有限。上述标记平台只支持简单实体标记和简单关系标记,不支持如分词和文本补全等其他文本要素的标记。2、不支持自动数据管理。所有涉及到的数据都需要手动配置和管理,由系统管理员配置任务以及导出标记数据。科研和工程人员在解决这些问题的时候往往需要结合多种工具或者根据实际需求进行二次开发,费时费力。故,需要一种能够在线进行高效、高正确率、提供自动数据管理和多场景应用的自动文本标记系统和方法。
技术实现思路
为了解决上述技术问题,本专利技术中披露了一种在线人工文本标记系统及方法,的技术方案是这样实施的:一种在线人工文本标记系统,包括自然语言处理工具库、数据库、文本数据搜集及预处理模块、服务器模块和操作模块;其中:所述文本数据搜集及预处理模块接收外部的文本源,按照服务器模块产生的文本需求对于所述文本源进行结构化处理,产生符合所述数据模型的所述待标记数据并存储所述待标记数据于所述数据库;所述服务器模块从所述数据库中获得所述待标记数据,通过调用所述自然语言处理工具库的自然语言处理标记服务进行自动标记生产所述自动标记数据,并存储所述自动标记数据在所述数据库;所述操作模块为可视化操作界面,包括数据处理互动模块,所述数据处理互动模块接收所述服务器模块中的所述待标记数据和所述自动标记数据,并用以显示、编辑和向所述服务器模块发送所述待标记数据和所述自动标记数据。优选地,所述操作模块为图形化前端模块或客户端模块,还包括:任务管理交互模块,用以录入任务信息和操作记录并向服务器模块发送;用户管理交互模块,用以录入用户信息并向服务器模块发送;标记工具交互模块,用以录入人为编辑待标记数据和人为标记数据并向服务器模块发送。优选地,所述服务器模块包括:自动标记模块,通过使用所述自然语言处理工具库所提供的自动标记服务对于所述待标记数据和/或所述人为编辑待标记数据进行标记处理产生所述自动标记数据,并将所述自动标记数据发送并存储于所述数据库;标记内容管理模块,接收所述任务管理交互模块所列举的任务生成业务数据和所述文本需求,将所述业务数据发送并存储于所述数据库,将所述文本需求发送给所述文本数据搜集及预处理模块;质量控制模块,对于所述待标记数据、所述自动标记数据、所述人为编辑待标记数据和所述人为标记数据采取质量控制方法对标记数据进行评价处理产生评价阈值,若所述评价阈值满足质量控制流程结束,否则向所述数据处理互动模块反馈所述评价阈值;用户管理模块,用以接收所述用户信息并将所述用户信息所述数据库。优选地,所述数据库包括:标记文本存储模块,以存储来自所述自动标记模块的所述操作记录、所述待标记数据和所述自动标记数据;业务信息存储模块,用以存储来自所述标记内容管理模块产生的业务数据;系统日志存储模块,用以存储包括所述用户信息、异常信息和所述操作记录。优选地,还包括外部接口模块,所述外部接口模块从所述服务器模块获得自然语言处理标记服务并对外提供接口。优选地,外部接口模块还包括授权管理模块,所述授权管理模块对于外部接口模块的访问进行授权管理。优选地,所述自然语言处理工具库还包括自动更新模块,所述自动更新模块能够根据所述数据库中的所述待标记数据和所述自动标记数据对于所述自然语言处理工具库中的算法进行更新处理。基于上述之一的在线人工文本标记系统的一种在线人工文本标记方法,其特征在于,包括如下步骤:S1:用户通过所述操作模块向所述服务器模块提出所述文本需求和质量控制阈值,所述文本数据搜集及预处理模块通过所述服务器模块提供的所述文本需求对于所述文本源所提供的文本机构化处理,产生结构化文本数据的所述待标记数据,并存储所述待标记数据于所述数据库,执行S2;S2:所述服务器模块从所述数据库中读取所述待标记数据,通过使用所述自然语言处理工具库所提供的自然语言处理标记服务对于所述待标记数据进行标记处理产生所述自动标记数据,执行S3;S3:所述服务器模块对于所述自动标记数据进行质量控制评价处理产生评价阈值,若所述评价阈值符合所述质量控制阈值范围则执行S5,否则执行S4;S4:所述服务器模块向所述操作模块发送所述评价阈值并重新执行S1;S5:所述服务器模块发送所述自动标记数据到所述数据库,所述数据库存储所述自动标记数据;所述服务器模块向所述操作模块发送所述自动标记数据,所述操作模块向用户展示所述自动标记数据,结束标记方法。优选地,还包括S0和S6,S0:用户通过登录用户账号对于系统进行操作;S6:所述服务器模块对于本次标记步骤进行记录产生所述业务数据,发送所述业务数据到所述数据库,数据库对于所述业务数据进行储存。实施本专利技术的技术方案可解决现有技术中缺乏自动数据管理、纯人工标记效率低、正确率低、缺少多类型文本标记支持的技术问题;实施本专利技术的技术方案,通过自动标记服务对于文本源进行结构化预处理以及自动标记程序,通过自然语言处理算法配合质量控制模块以及人工干预,可实现在线进行高效、高正确率、提供自动数据管理和多场景应用的技术效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为一种在线人工文本标记系统的系统结构图;图2为一种在线人工文本标记方法的标记流程;图3为一种在线人工文本标记方法的质量控制流程;图4为一种在线人工文本标记方法的文本数据搜集及预处理流程;图5为一种在线人工文本标记方法的任务管理和发布流程;图6为一种在线人工文本标记方法的用户操作流程。本文档来自技高网...
【技术保护点】
1.一种在线人工文本标记系统,其特征在于:包括自然语言处理工具库、数据库、文本数据搜集及预处理模块、服务器模块和操作模块;其中:/n所述文本数据搜集及预处理模块接收外部的文本源,按照服务器模块产生的文本需求对于所述文本源进行结构化处理,产生符合所述数据模型的所述待标记数据并存储所述待标记数据于所述数据库;/n所述服务器模块从所述数据库中获得所述待标记数据,通过调用所述自然语言处理工具库的自然语言处理标记服务进行自动标记生产所述自动标记数据,并存储所述自动标记数据在所述数据库;/n所述操作模块为可视化操作界面,包括数据处理互动模块,所述数据处理互动模块接收所述服务器模块中的所述待标记数据和所述自动标记数据,并用以显示、编辑和向所述服务器模块发送所述待标记数据和所述自动标记数据。/n
【技术特征摘要】
1.一种在线人工文本标记系统,其特征在于:包括自然语言处理工具库、数据库、文本数据搜集及预处理模块、服务器模块和操作模块;其中:
所述文本数据搜集及预处理模块接收外部的文本源,按照服务器模块产生的文本需求对于所述文本源进行结构化处理,产生符合所述数据模型的所述待标记数据并存储所述待标记数据于所述数据库;
所述服务器模块从所述数据库中获得所述待标记数据,通过调用所述自然语言处理工具库的自然语言处理标记服务进行自动标记生产所述自动标记数据,并存储所述自动标记数据在所述数据库;
所述操作模块为可视化操作界面,包括数据处理互动模块,所述数据处理互动模块接收所述服务器模块中的所述待标记数据和所述自动标记数据,并用以显示、编辑和向所述服务器模块发送所述待标记数据和所述自动标记数据。
2.根据权利要求1所述的一种在线人工文本标记系统,其特征在于:所述操作模块为图形化前端模块或客户端模块,还包括:
任务管理交互模块,用以录入任务信息和操作记录并向服务器模块发送;
用户管理交互模块,用以录入用户信息并向服务器模块发送;
标记工具交互模块,用以录入人为编辑待标记数据和人为标记数据并向服务器模块发送。
3.根据权利要求2所述的一种在线人工文本标记系统,其特征在于:所述服务器模块包括:
自动标记模块,通过使用所述自然语言处理工具库所提供的自动标记服务对于所述待标记数据和/或所述人为编辑待标记数据进行标记处理产生所述自动标记数据,并将所述自动标记数据发送并存储于所述数据库;
标记内容管理模块,接收所述任务管理交互模块所列举的任务生成业务数据和所述文本需求,将所述业务数据发送并存储于所述数据库,将所述文本需求发送给所述文本数据搜集及预处理模块;
质量控制模块,对于所述待标记数据、所述自动标记数据、所述人为编辑待标记数据和所述人为标记数据采取质量控制方法对标记数据进行评价处理产生评价阈值,若所述评价阈值满足质量控制流程结束,否则向所述数据处理互动模块反馈所述评价阈值;
用户管理模块,用以接收所述用户信息并将所述用户信息所述数据库。
4.根据权利要求3所述的一种在线人工文本标记系统,其特征在于:所述数据库包括:
标记文本存储模块,以存储来自所述自动标记模块的所述操作记录、所述待标记数据和所述自动...
【专利技术属性】
技术研发人员:王若愚,孙炜,
申请(专利权)人:孙炜,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。