一种药品文档的数据关联分析方法和系统技术方案

技术编号:24708078 阅读:15 留言:0更新日期:2020-06-30 23:59
本发明专利技术公开了一种药品文档的数据关联分析方法,通过对药品文档进行结构化处理形成多个结构化数据单元;然后将已存储的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存。可以有效管理项目基础信息及项目进度,对药品文档建立结构化数据单元并建立各数据单元间关联关系,可方便用户检查关联文档内容的一致性及其变化情况,便于跟踪同一试验内容或结果。

【技术实现步骤摘要】
一种药品文档的数据关联分析方法和系统
本专利技术涉及信息
,尤其涉及一种药品文档的数据关联分析方法和系统。
技术介绍
医药行业近几年迎来了大发展与机遇,同时也存在非常多的挑战。随着国家对药企监管的加深、新药品管理法等法规的频繁出台、以及法规逐渐趋同国际等多方面影响,给药企内部管理带来了相当大的压力。另外国外药企在国内开设公司,抢占国内市场,给国内药企带来巨大的市场竞争压力。所以药企也不断开始认识到从仿制药到创新研发的重要性,很多上市企业渐渐加大对于研发的投入。随着中国医药产业创新的,药企在医药研发信息化方面的投入逐渐加大。目前中国医药研发在项目管理、药品注册申报、实验室管理及实验数据管理方面,主要依靠人工,效率较低、项目进度跟踪难、数据有效性和一致性难以保障,导致医药研发进度滞缓,成本增加。
技术实现思路
本专利技术针对现有技术中的不足,提供了一种药品文档的数据关联分析方法,包括:S1,对上传的药品文档进行结构化处理形成多个结构化数据单元,所述结构化数据单元包括用于精确搜索和内容分析的标签字段,和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段;S2,将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存;S3,对新上传药品文档的结构化数据单元与其关联数据单元进行数据对比分析,识别不同特定数据并报警。优选的,所述步骤S1具体包括:S11,对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后形成一结构化数据单元;S12,采用基于统计的机器学习方法搜索获取上传药品文档内新词或专业术语词汇;S13,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典,对文档各段落和/或表格的内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;S14,将具有标签字段的结构化数据单元存储到搜索引擎中。优选的,所述步骤S13具体包括:S131,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典;S132,对文档段落表格内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;S133,对各段落表格所属的章节标题,文档标题进行分词,通过IFIDF算法计算各词权重,提取权重大于预设阈值的词语作为关键词加入到相应段落表格标签中。优选的,结构化数据单元包括但不限于:该结构化数据单元所属的项目id、文档名称、文字内容、在文档中的位置信息、标签以及与标签一一对应的用于结构化数据单元关联分析的标签权重。优选的,步骤S2具体包括:S21,从搜索引擎中查询出所有已保存的结构化数据单元,提取各结构化数据单元的标签字段;S22,通过各标签字段计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标;S23,选择相似度大于预设阈值的结构化数据单元作为关联数据单元,将数据单元的关联关系及相似度指标保存到系统数据库中。优选的,步骤S3具体包括:S31,搜索新上传文档的结构化数据单元中包含歧义特征的段落表格,确认歧义内容,其中所述歧义特征为预设歧义特征数据库中信息;S32,在与新上传文档的结构化数据单元关联的关联数据单元中搜索数据变量名称,比较相同变量名称的变量数据值,若数据不同则判断为歧义内容;S33,将歧义内容及其位置信息向用户进行发送。本专利技术还公开了一种药品文档数据关联分析系统,包括:结构化处理模块,用于对上传的药品文档进行结构化处理形成多个结构化数据单元,所述结构化数据单元包括用于精确搜索和内容分析的标签字段,和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段;关联分析模块,用于将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存;识别模块,用于对新上传药品文档的结构化数据单元与其关联数据单元进行数据对比分析,识别不同特定数据并报警。优选的,所述结构化处理模块包括:标签提取模块,用于对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后形成一结构化数据单元;搜索模块,采用基于统计的机器学习方法搜索获取上传药品文档内新词或专业术语词汇;分词模块,用于将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典,对文档各段落和/或表格的内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;存储模块,用于将具有标签字段的结构化数据单元存储到搜索引擎中。本专利技术还公开了一种药品文档数据关联分析系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述任一所述方法的步骤。本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述任一所述方法的步骤。本专利技术公开的药品文档的数据关联分析方法通过对药品文档进行结构化处理形成多个结构化数据单元;然后将已存储的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存。另外该方法也可通过对上传的药品文档内容进行分析评估上传文档完成度,然后再对达到预设文档完成度的药品文档进行结构化处理形成多个结构化数据单元。可以有效管理项目基础信息及项目进度,利用内置文档内容与项目阶段知识库可自动识别药品项目或文档进度,对完成度达到要求的文档建立结构化数据单元并建立各数据单元间关联关系,可方便用户检查关联文档内容的一致性及其变化情况,便于跟踪同一试验内容或结果。使得用户在进行文档内容预览或查看搜索结果时,可以选择某一个段落或表格查看与其关联的段落或表格,实现关联文档内容的快速筛选和发现,及时高效的跟踪同一试验内容或结果。另外,通过在该药品文档的数据关联分析方法中增加对新上传文档的结构化数据单元与其关联数据单元进行数据对比分析的异常分析步骤,可以对包括同一对象不同表述或数据不一致性等异常问题进行自动检查发现并通知给用户,辅助用户发现文档内容表述或数据的不一致,保证文档合规性。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为实施例公开的药品文档的数据关联分析方法的流程示意图。图2为实施例公开的步骤S1的具体流程示意图。图3为实施例公开的步骤S13的具体流程示意图。图4为实施例公开的步骤S2的具体流程示意图。图5为实施本文档来自技高网...

【技术保护点】
1.一种药品文档的数据关联分析方法,其特征在于,包括:/nS1,对上传的药品文档进行结构化处理形成多个结构化数据单元,所述结构化数据单元包括用于精确搜索和内容分析的标签字段,和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段;/nS2,将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存;/nS3,对新上传药品文档的结构化数据单元与其关联数据单元进行数据对比分析,识别不同特定数据并报警。/n

【技术特征摘要】
1.一种药品文档的数据关联分析方法,其特征在于,包括:
S1,对上传的药品文档进行结构化处理形成多个结构化数据单元,所述结构化数据单元包括用于精确搜索和内容分析的标签字段,和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段;
S2,将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存;
S3,对新上传药品文档的结构化数据单元与其关联数据单元进行数据对比分析,识别不同特定数据并报警。


2.根据权利要求1所述的药品文档的数据关联分析方法,其特征在于,所述步骤S1具体包括:
S11,对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后形成一结构化数据单元;
S12,采用基于统计的机器学习方法搜索获取上传药品文档内新词或专业术语词汇;
S13,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典,对文档各段落和/或表格的内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;
S14,将具有标签字段的结构化数据单元存储到搜索引擎中。


3.根据权利要求2所述的药品文档的数据关联分析方法,其特征在于,所述步骤S13具体包括:
S131,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典;
S132,对文档段落表格内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;
S133,对各段落表格所属的章节标题,文档标题进行分词,通过IFIDF算法计算各词权重,提取权重大于预设阈值的词语作为关键词加入到相应段落表格标签中。


4.根据权利要求3所述药品文档的数据关联分析方法,其特征在于:其中结构化数据单元包括但不限于:该结构化数据单元所属的项目id、文档名称、文字内容、在文档中的位置信息、标签以及与标签一一对应的用于结构化数据单元关联分析的标签权重。


5.根据权利要求4所述药品文档的数据关联分析方法,其特征在于,步骤S2具体包括:
S21,从搜索引擎中查询出所有已保存的结构化数据单元,提取各结构化数据单元的标签字段;
S22,通过各标签字段计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标;
S23,选...

【专利技术属性】
技术研发人员:牛乾林加旗魏巍包卿
申请(专利权)人:浙江明度智控科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1