一种药品文档的数据关联分析方法和系统技术方案

技术编号：24708078 阅读：15 留言：0更新日期：2020-06-30 23:59

本发明专利技术公开了一种药品文档的数据关联分析方法，通过对药品文档进行结构化处理形成多个结构化数据单元；然后将已存储的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算，根据相似度确定各结构化数据单元间关联关系并保存。可以有效管理项目基础信息及项目进度，对药品文档建立结构化数据单元并建立各数据单元间关联关系，可方便用户检查关联文档内容的一致性及其变化情况，便于跟踪同一试验内容或结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种药品文档的数据关联分析方法和系统
本专利技术涉及信息
，尤其涉及一种药品文档的数据关联分析方法和系统。
技术介绍
医药行业近几年迎来了大发展与机遇，同时也存在非常多的挑战。随着国家对药企监管的加深、新药品管理法等法规的频繁出台、以及法规逐渐趋同国际等多方面影响，给药企内部管理带来了相当大的压力。另外国外药企在国内开设公司，抢占国内市场，给国内药企带来巨大的市场竞争压力。所以药企也不断开始认识到从仿制药到创新研发的重要性，很多上市企业渐渐加大对于研发的投入。随着中国医药产业创新的，药企在医药研发信息化方面的投入逐渐加大。目前中国医药研发在项目管理、药品注册申报、实验室管理及实验数据管理方面，主要依靠人工，效率较低、项目进度跟踪难、数据有效性和一致性难以保障，导致医药研发进度滞缓，成本增加。
技术实现思路
本专利技术针对现有技术中的不足，提供了一种药品文档的数据关联分析方法，包括：S1，对上传的药品文档进行结构化处理形成多个结构化数据单元，所述结构化数据单元包括用于精确搜索和内容分析的标签字段，和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段；S2，将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算，根据相似度确定各结构化数据单元间关联关系并保存；S3，对新上传药品文档的结构化数据单元与其关联数据单元进行数据对比分析，识别不同特定数据并报警。优选的，所述步骤S1具体包括：S11，对上传的药品文档...

【技术保护点】
1.一种药品文档的数据关联分析方法，其特征在于，包括：/nS1，对上传的药品文档进行结构化处理形成多个结构化数据单元，所述结构化数据单元包括用于精确搜索和内容分析的标签字段，和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段；/nS2，将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算，根据相似度确定各结构化数据单元间关联关系并保存；/nS3，对新上传药品文档的结构化数据单元与其关联数据单元进行数据对比分析，识别不同特定数据并报警。/n

【技术特征摘要】
1.一种药品文档的数据关联分析方法，其特征在于，包括：
S1，对上传的药品文档进行结构化处理形成多个结构化数据单元，所述结构化数据单元包括用于精确搜索和内容分析的标签字段，和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段；
S2，将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算，根据相似度确定各结构化数据单元间关联关系并保存；
S3，对新上传药品文档的结构化数据单元与其关联数据单元进行数据对比分析，识别不同特定数据并报警。

2.根据权利要求1所述的药品文档的数据关联分析方法，其特征在于，所述步骤S1具体包括：
S11，对上传的药品文档内容进行读取，获取文档内各段落和/或表格的文字内容和位置信息，并对各段落和表格进行标签提取，结构化处理后形成一结构化数据单元；
S12，采用基于统计的机器学习方法搜索获取上传药品文档内新词或专业术语词汇；
S13，将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典，对文档各段落和/或表格的内容进行分词，去除停用词，将获得的各词语作为段落表格的标签字段；
S14，将具有标签字段的结构化数据单元存储到搜索引擎中。

3.根据权利要求2所述的药品文档的数据关联分析方法，其特征在于，所述步骤S13具体包括：
S131，将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典；
S132，对文档段落表格内容进行分词，去除停用词，将获得的各词语作为段落表格的标签字段；
S133，对各段落表格所属的章节标题，文档标题进行分词，通过IFIDF算法计算各词权重，提取权重大于预设阈值的词语作为关键词加入到相应段落表格标签中。

4.根据权利要求3所述药品文档的数据关联分析方法，其特征在于：其中结构化数据单元包括但不限于：该结构化数据单元所属的项目id、文档名称、文字内容、在文档中的位置信息、标签以及与标签一一对应的用于结构化数据单元关联分析的标签权重。

5.根据权利要求4所述药品文档的数据关联分析方法，其特征在于，步骤S2具体包括：
S21，从搜索引擎中查询出所有已保存的结构化数据单元，提取各结构化数据单元的标签字段；
S22，通过各标签字段计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标；
S23，选...

【专利技术属性】
技术研发人员：牛乾，林加旗，魏巍，包卿，
申请(专利权)人：浙江明度智控科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人