用于将目标文本转化成结构化数据的方法和装置制造方法及图纸

技术编号:27561475 阅读:25 留言:0更新日期:2021-03-09 22:03
本公开的实施例公开了用于将目标文本转化成结构化数据的方法和装置。该方法的一具体实施方式包括:获取目标文本;根据该目标文本,提取实体和实体关系;根据该实体和该实体关系,将目标文本转化成结构化数据;将该结构化数据发送到存储设备上。该实施方式实现了将目标文本转化成结构化数据,从而对目标文本可以进行各种高效、智能的查询。智能的查询。智能的查询。

【技术实现步骤摘要】
用于将目标文本转化成结构化数据的方法和装置


[0001]本公开的实施例涉及计算机
,具体涉及用于将目标文本转化成结构化数据的方法和装置。

技术介绍

[0002]结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP(Enterprise Resource Planning,企业资源计划)、财务系统;医疗HIS(Hospital Information System,医院信息系统)数据库;教育一卡通;政府行政审批;其他核心数据库等。
[0003]结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML(Extensible Markup Language,可扩展标记语言)、HTML(Hyper Text Markup Language,超文本标记语言)、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

技术实现思路

[0004]本
技术实现思路
部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]本公开的一些实施例提出了用于将目标文本转化成结构化数据的方法和装置。
[0006]第一方面,本公开的一些实施例提供了一种用于将目标文本转化成结构化数据的方法,该方法包括:获取目标文本;根据上述目标文本,提取实体和实体关系;根据上述实体和实体关系,将获取到的目标文本转化成结构化数据;将上述结构化数据发送到存储设备上。
[0007]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
[0008]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
附图说明
[0009]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0010]图1是本公开的一些实施例可以应用于其中的示例性系统的架构图;
[0011]图2是根据本公开实施例的用于将目标文本转化成结构化数据的方法的一些实施例的流程图;
[0012]图3是根据本公开的一些实施例的用于将目标文本转化成结构化数据的方法的一个应用场景的示意图;
[0013]图4是适于用来实现本公开的一些实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0014]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0015]另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0016]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0017]图1示出了可以应用本公开的一些实施例的用于将目标文本转化成结构化数据的方法的示例性系统架构100。
[0018]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105、106。网络104用以在终端设备101、102、103和服务器105、106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0019]用户可以使终端设备101、102、103通过网络104与服务器105、106交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用。
[0020]终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持图像识别的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0021]服务器105可以是提供各种服务的服务器,例如存储目标文本的数据存储服务器。数据存储服务器可以存储有目标文本。目标文本通常包括病人的入院记录,住院记录,出院记录等。
[0022]服务器106可以是提供各种服务的服务器,例如对终端设备101、102、103上的数据存储应用提供支持的后台服务器。后台服务器可以获取数据存储服务器105中存储的目标文本并将目标文本转化成结构化数据,并将结构化数据反馈给终端设备。
[0023]需要说明的是,本公开实施例的用于将目标文本转化成结构化数据的方法一般由服务器106执行。
[0024]需要说明的是,服务器105、106可以是硬件,也可以是软件。当服务器105、106为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务
器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0025]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0026]继续参考图2,示出了根据本公开实施例的用于将目标文本转化成结构化数据的方法的一些实施例的流程图200。该用于将目标文本转化成结构化数据的方法,包括以下步骤:
[0027]步骤201,获取目标文本。
[0028]在一些实施例中,用于将目标文本转化成结构化数据的方法的执行主体(例如图1所示的服务器106)可以通过多种方式来获取目标文本。例如,执行主体可以通过有线连接方式或无线连接方式,从数据存储服务器(例如图1所示的数据存储服务器105)中获取存储于其中的现有的目标文本。再例如,用户可以通过终端(例如图1所示的终端101、102、103)来收集文本。这样,执行主体可以接收终端所收集的文本,并将这些文本存储在本地,从而得到目标文本。在这里,目标文本可以包括病人的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于将目标文本转化成结构化数据的方法,包括:获取目标文本;根据所述目标文本,提取实体和实体关系;根据所述实体和实体关系,将所述目标文本转化成结构化数据;将所述结构化数据发送到存储设备上。2.根据权利要求1所述的方法,其中,所述获取目标文本,包括:确定目标医院;从所述目标医院中获取目标文本。3.根据权利要求1所述的方法,其中,所述根据所述目标文本,提取实体和实体关系,包括:确定所述目标文本中的实体和实体关系;将所述实体和实体关系分别提取出来。4.根据权利要求1所述的方法,其中,所述根据所述实体以及实体关系,将获取到的目标文本转化成结构化数据,包括:将目标文本输入机器翻译架构,得到与目标文本对应的结构化数据。5.根据权利要求1所述的方法,其中,所述根据所述实体以及实体关系,将获取到的目标文本转化成结构化数据,包括:将目标文本分解成单词序列;将所述单词序列输入到编...

【专利技术属性】
技术研发人员:林玥煜邓侃邱鹏飞
申请(专利权)人:北京大数医达科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1