【技术实现步骤摘要】
一种用于医药行业的表格差异化内容分析方法、系统和存储介质
本专利技术涉及数据处理和分析
,尤其涉及一种用于医药行业的表格差异化内容分析方法、系统和存储介质。
技术介绍
电子表格(Spreadsheet),又称电子数据表,由一系列行与列构成的网格,网格内可以存放数值、计算式以及文本等。常用的电子表格例如Excel表格,Excel表格被提交至版本管理服务器做版本管理。在日常的一些领域的文字处理工作中,经常需要处理大量的文档,而这些文档中又存在大量表格,这些表格具有相似度高,相互引用、嵌套的情况,同时由于处理工作量大等原因,经常需要多个用户协作进行文档编辑。例如,药企研发机构在准备整理药品申报资料时存在大量文档,文档中存在大量表格。这些表格存在相似度高、相互引用、和嵌套等各类情况。同时,由于这些关联表格由多人人为整理,往往存在对应单元格内容不一致、表格行列丢失、表格行列顺序错乱等各种错误情况。但是由于表格众多,而其分布在大量不同文档中,这就造成后期人为检查的工作量极大,且上述错误情况难以发现,最终直接导致资料错误,合规性需求难以满足,严重拖延了药品申报进度。
技术实现思路
本专利技术针对现有技术中的不足,提供了一种用于医药行业的表格差异化内容分析方法,具体包括:S1,获取待分析的多份表格的各单元格坐标和内容,分别生成各表格单元格坐标与内容相对应的表格结构化数据;S2,对各表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容,筛选出存在关联的关联表格对; >S3,比较关联表格对的各单元格内容,根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组,所述异常单元格组包括部分或全部内容不一致单元格;S4,对关联表格对的异常单元格组中对应单元格内容进行对比,找出并标记单元格内容中的不一致字符集合。优选的,所述表格结构化数据包括表格所属文档信息、表格在文档中位置、表格内单元格坐标、和/或单元格内容信息。优选的,所述步骤S2具体包括:S21,对各表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容;S22,根据内容一致单元格的数量和/或分布位置来判断所述两表格的关联状态。优选的,所述步骤S22还包括:获取各表格的内容一致单元格数量和其在表格中的分布位置;获取各表格的最小表格矩阵,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域;当内容一致单元格数量大于预设值时,和/或内容一致单元格数量的两倍要大于所在两表格所包含单元格数量之和的预设比例时,和/或内容一致单元格数量大于其所在最小表格矩阵内的单元格总数的预设比例时,判断该两表格为具有关联的关联表格对。优选的,所述步骤S3具体包括:当关联表格对的两最小表格矩阵的行列数一致时,遍历最小表格矩阵的每一单元格;比较两最小表格矩阵对应位置的内容是否相同,若存在不同则将其中内容不一致单元格坐标和内容进行记录并生成异常单元格组,否则不进行记录。优选的,所述步骤S3还包括:如果最小表格矩阵的行数和列数相同,则将关联表格对中的一表格转置形成第一转置表格;将另一表格的最小表格矩阵与所述第一转置表格的最小表格矩阵进行比较并获取不一致单元格数量;比较转置前后分别获得的关联表格对中的内容不一致单元格数量,将数量较小的作为异常单元格组数据。优选的,所述步骤S3还包括:当关联表格对中一表格的最小表格矩阵经转置后与另一表格的最小表格矩阵的行列数均相等时,将该表格转置形成第二转置表格;比较第二转置表格最小表格矩阵与另一表格最小表格矩阵在对应位置的内容是否相同,若存在不同则将其中内容不一致单元格坐标和内容录入异常单元格组。本专利技术还公开了一种表格差异化内容分析系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述表格差异化内容分析方法的步骤。本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述表格差异化内容分析方法的步骤。本专利技术公开了一种用于医药行业的表格差异化内容分析方法,通过提取表格单元格坐标和内容形成表格结构化数据,确保同一行列单元格的行列坐标一致,为后续分析做准备。然后对各表格进行表格关联分析,建立内容一致单元格形成的关联表格对,通过自定义预设准则判断两个表格是否为关联表格对。后续通过仅对关联表格对进行后续对比分析,大大减少对比分析的计算量。在对关联表格对进行对比分析过程中,充分考虑小表格嵌入大表格,表格行列转置,表格行列顺序错乱,表格内部及四周行列缺失等各类情况,根据关联表格对各情况状态分别进行分析,找出关联表格对的不一致单元格坐标及位置。最后异常结果处理步骤可以通过排除行列顺序错乱和行列缺失产生的不一致单元格,根据找出的真实不一致单元格、及不一致单元格内容中的不一致字符集合,筛选出真正异常的表格对以及不一致单元格内不一致字符集合,最终减少呈现给用户的结果数量,便于用户快速排查发现错误、异常表格。可以实现对大量表格的对比分析,发现和定位关联表格不一致的单元格及单元格内容差异。适用于需要处理大量相似表格,表格多处嵌套、复用的场景,可以减少人工检查表格一致性的大量重复性工作,避免关联表格对应单元格内容不一致的错误。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本实施例公开的表格差异化内容分析方法的流程示意图。图2为本实施例公开的步骤S2的具体流程示意图。图3为本实施例公开的待分析表格的转化示意图。图4为本实施例公开的步骤S22的具体流程示意图。图5为本实施例公开的步骤S3在状态一时的具体流程示意图。图6为本实施例公开的步骤S3在状态二时的具体流程示意图。图7为本实施例公开的步骤S3在状态三一情形时的具体流程示意图。图8为本实施例公开的步骤S3在状态三另一情形时的具体流程示意图。图9为本实施例公开的步骤S3在状态四一情形时的具体流程示意图。图10为本实施例公开的步骤S3在状态四另一情形时的具体流程示意图。图11为本实施例公开的表格差异化内容分析系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例的附图,对本专利技术实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于所描述的本专利技术的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“本文档来自技高网...
【技术保护点】
1.一种用于医药行业的表格差异化内容分析方法,其特征在于,包括:/nS1,获取待分析的多份表格的各单元格坐标和内容,分别生成各表格单元格坐标与内容相对应的表格结构化数据;/nS2,对各表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容,筛选出存在关联的关联表格对;/nS3,比较关联表格对的各单元格内容,根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组,所述异常单元格组包括部分或全部内容不一致单元格;/nS4,对关联表格对的异常单元格组中对应单元格内容进行对比,找出并标记单元格内容中的不一致字符集合。/n
【技术特征摘要】
1.一种用于医药行业的表格差异化内容分析方法,其特征在于,包括:
S1,获取待分析的多份表格的各单元格坐标和内容,分别生成各表格单元格坐标与内容相对应的表格结构化数据;
S2,对各表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容,筛选出存在关联的关联表格对;
S3,比较关联表格对的各单元格内容,根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组,所述异常单元格组包括部分或全部内容不一致单元格;
S4,对关联表格对的异常单元格组中对应单元格内容进行对比,找出并标记单元格内容中的不一致字符集合。
2.根据权利要求1所述的表格差异化内容分析方法,其特征在于:
所述表格结构化数据包括表格所属文档信息、表格在文档中位置、表格内单元格坐标、和/或单元格内容信息。
3.根据权利要求2所述的表格差异化内容分析方法,其特征在于,所述步骤S2具体包括:
S21,对各表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容;
S22,根据内容一致单元格的数量和/或分布位置来判断所述两表格的关联状态。
4.根据权利要求3所述的表格差异化内容分析方法,其特征在于,所述步骤S22还包括:
获取各表格的内容一致单元格数量和其在表格中的分布位置;
获取各表格的最小表格矩阵,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域;
当内容一致单元格数量大于预设值时,和/或内容一致单元格数量的两倍要大于所在两表格所包含单元格数量之和的预设比例时,和/或内容一致单元格数量大于其所在最小表格矩阵内的单元格总数的预设比例时,判断该两表...
【专利技术属性】
技术研发人员:倪晓姗,郝华,
申请(专利权)人:浙江明度智控科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。