基于指标存储模型的双向映射队列研究信息系统技术方案

技术编号:22003054 阅读:61 留言:0更新日期:2019-08-31 06:11
本发明专利技术涉及一种基于指标存储模型的双向映射队列研究信息系统。本发明专利技术采用无结构的数据存储方式,为数据采集中指标建立指标模型和指标库,提供一套可供用户修改的基本采集模板,根据用户需求提供对应的分析数据,对于同一指标可提供具有时序性的数据序列,系统可直接对用户数据建模进行分析,无需管理员部署数据库,简化操作、节省人力物力,最大化保证了所需即所得。

Bidirectional Mapping Queue Research Information System Based on Index Storage Model

【技术实现步骤摘要】
基于指标存储模型的双向映射队列研究信息系统
本专利技术涉及一种基于指标存储模型的双向映射队列研究信息系统,用于解决队列研究信息系统中数据采集和数据分析与数据存储之间的映射问题。
技术介绍
随着医学信息和医学研究的发展,队列研究作为一种长期观察研究调查者健康状况的调查方法,已逐步显示出其重要地位。队列研究信息系统作为队列研究最普遍的数据采集工具,已在医学研究领域得到了普遍认可。传统的队列研究信息系统主要采用单层模型,将医学领域知识硬编码到信息采集系统中,使得系统应用范围单一,开发过程复杂。近年来,基于openEHR的双层开发模型取得了一定的发展,这类系统将底层不变的参考模型和表示医学领域知识的原型模型进行了分离,扩展了系统在队列研究中的应用。目前,已有研究通过原型关系数据库自动映射、原型驱动等方法实现了原型到结构化数据库的映射,并在此基础上实现了数据采集和数据分析的可配置研究,使得信息研究系统具有更大的灵活性和扩展性。现有系统大多为根据队列研究的需求来进行系统开发,以定制性的系统为主,灵活度不高;近年来虽然出现了一系列基于openEHR(openElectronicHealthRecord)的队列研究信息系统,但该类系统采用结构化数据存储方式,对于更新融合不同源的采集数据、提供具有时序性的指标数据序列具有一定的复杂性,且需要管理员针对相应模板部署数据库,操作具有一定复杂性,且管理员的参与为数据的可配置带了一些风险。
技术实现思路
本专利技术的目的是:提高信息系统扩展性、降低数据分析和数据融合难度,为医疗研究人员提供一个个性化和操作便捷的数据系统。为了达到上述目的,本专利技术的技术方案是提供了一种基于指标存储模型的双向映射队列研究信息系统,其特征在于,包括:基础问卷模板库,用户根据研究或者业务需求设计问卷模板后,依据该问卷模板从基础问卷模板库中选择基础问卷模板,基础问卷模板中的各个问卷项由问卷项id来进行区分,对选中的基础问卷模板进行增改和调整来构建个性化问卷模板,若未选中基础问卷模板,则直接根据预先设计的问卷模板生成个性化问卷模板,并将预先设计的问卷模板作为新的基础问卷模板添加入基础问卷模板库中;自动化表单组件,依据个性化问卷模板利用自动化表单组件生成问卷,问卷中,受访者完成问卷中各问卷项的填写后,对问卷进行数据采集,将采集到的数据存储在无结构的键值对key-value队列中;指标库,采集得到的键值对key-value队列数据自动映射到指标库,指标库利用指标存储模型构建,指标存储模型用于将基础问卷模板中提取出的各项指标项进行建模,包含指标名称、指标层级结构、组合指标标识、数据类型、数据来源、时间戳、隐私属性、常规显示属性,指标存储模型利用指标层级结构和数据类型将key-value队列数据映射到指标库的数据进行了规范,映射时,所采用的规则如下:规则一)单对单:表示单一问卷项即可表示单一的指标名项;规则二)多对单:表示重复的指标项,即多个相同意义的问卷项多次出现在问卷中;规则三)单对多:表示一个问卷项对应多个指标项,即一个问卷项的意义需要多个指标项来共同表示;数据分析模型,通过数据分析模型与指标库的映射将来自多个数据源的数据按照相似度分析,并且将数据按照数据标准存入指标库,根据数据分析模型中数据指标和指标项的关系进行映射,完成数据分析模型所需的结构化数据拼接,其中,相似度计算包括如下步骤:步骤1、对所有问卷中的问题进行归类标记,包括文本型、定序型、定比型和定类型4大类,其中文本型包含但不限于姓名、家庭住址等自由度较高的文本型问题;定序型包含具有顺序信息的选项问题;定类型包含类别型选项问题;定比型包含数值型问题;步骤2、对上述4大类标记数据,进行相似度计算,包括以下步骤:针对文本型问题,通过短文本相似度算法计算两份问卷中同一文本型问题的相似度,得到每一问题的相似值为q1代表两问卷相同的文本型问题的个数,任意两段文本的相似度St的计算方法包括以下步骤:步骤201、设两段文本分别为T1={w1,w2,w3,...,wm}和T2={w1,w2,w3,...,wn},其中,wm为文本T1中的第m个字符,wn为文本T2中的第n个字符;对文本T1和文本T2取并集,并去除重复字符得到字符集T={w1,w2,w3,...,wp},wp为字符集T中的第p个字符;步骤202、计算字符集T中每个字符在文本T1和文本T2中出现的次数分别为M={m1,m2,...,mp}和N={n1,n2,...,np},mp为字符集T中的第p个字符在文本T1中出现的次数,np为字符集T中的第p个字符在文本T2中出现的次数;步骤203、计算文本T1和文本T2的相似度St:针对定序型问题和定比型问题,将定序型问题选项按照从低到高的顺序转换为顺序数值(1,2,3…),将其与定比型问题结果合并,形成包含q2个重复问题的数值问题结果集通过余弦相似度计算两问卷中的问题结果集Num1和Num2,得到所有定序型和定比型问题的相似度值为Sn;针对定类型问题,将两问卷中同一问题进行对比,若一致则为1,不一致则为0,得到每一问题的相似度值q3代表两问卷相同的定类型问题的个数。最终,计算得到综合相似度值设定重复问题个数阈值K和综合相似度阈值α,若两问卷重复问题个数大于K且综合相似度阈值S>α,则判定两问卷为同一人。优选地,所述自动化表单组件根据问卷题库提取各类题型,通过匹配所述个性化问卷模板中每个题目的配置类型、文字以及层级关系生成所述问卷,其中,提取各类题型时,将各类题型按照题干和选项拆分,题干进一步拆分为文本和问卷答案项,选项则来自预先设计好的选项字典库或按照业务需求固定下来的配置文件,并且通过问卷项id来进行区分。优选地,所述自动化表单组件生成所述问卷包括以下步骤:自动化表单组件逐项匹配个性化问卷模板配置文件中的题目,根据题目qid和题目中文字和题型生成题干,按照题干对应的问卷项id将问卷项答案与数据意义绑定;若题型为选择题,则选项根据选项option生成,选项option来自配置文件或者数据库字典库,若题型为其他则仅有题干和问卷项;问卷项和题目之间存在的层级关系则用层级关系标识符parent来标识,表示该问卷项属于某个题目,当某个题目或者问卷项的生成受某个问卷项答案的影响时使用关系标识符relate标识,关系标识符relate中包含了问卷项id和问卷项答案,表示问卷项之间的关联关系。优选地,采集得到的键值对key-value队列数据自动映射到指标库时,问卷中数据类型或者页面逻辑和指标库中的规范化数据进行以下问卷项值的逻辑映射:1)直接提取单一文本数据,无任何数据加工;2)根据单一问卷项加工;3)多个问卷项的值拼接;4)取自多个问卷项的值且需要拼装成对象数组;5)取自多个问卷项的值且需要根据问卷项含义进行转换拼装成对象数组;6)当指标逻辑为求和时,将字段统一单位后相加;当指标逻辑为或时,判断相或字段是否为空,取非空字段;当指标逻辑为与时,判断字段是否为空,取空字段。本专利技术采用无结构的数据存储方式,为数据采集中指标建立指标模型和指标库,提供一套可供用户修改的基本采集模板,根据用户需求提供对应的分析数据,对于同一指标可提供具有时序性的数据序列,系统可直接对用户数据建模进行本文档来自技高网...

【技术保护点】
1.一种基于指标存储模型的双向映射队列研究信息系统,其特征在于,包括:基础问卷模板库,用户根据研究或者业务需求设计问卷模板后,依据该问卷模板从基础问卷模板库中选择基础问卷模板,基础问卷模板中的各个问卷项由问卷项id来进行区分,对选中的基础问卷模板进行增改和调整来构建个性化问卷模板,若未选中基础问卷模板,则直接根据预先设计的问卷模板生成个性化问卷模板,并将预先设计的问卷模板作为新的基础问卷模板添加入基础问卷模板库中;自动化表单组件,依据个性化问卷模板利用自动化表单组件生成问卷,问卷中,受访者完成问卷中各问卷项的填写后,对问卷进行数据采集,将采集到的数据存储在无结构的键值对key‑value队列中;指标库,采集得到的键值对key‑value队列数据自动映射到指标库,指标库利用指标存储模型构建,指标存储模型用于将基础问卷模板中提取出的各项指标项进行建模,包含指标名称、指标层级结构、组合指标标识、数据类型、数据来源、时间戳、隐私属性、常规显示属性,指标存储模型利用指标层级结构和数据类型将key‑value队列数据映射到指标库的数据进行了规范,映射时,所采用的规则如下:规则一)单对单:表示单一问卷项即可表示单一的指标名项;规则二)多对单:表示重复的指标项,即多个相同意义的问卷项多次出现在问卷中;规则三)单对多:表示一个问卷项对应多个指标项,即一个问卷项的意义需要多个指标项来共同表示;数据分析模型,通过数据分析模型与指标库的映射将来自多个数据源的数据按照相似度分析,并且将数据按照数据标准存入指标库,根据数据分析模型中数据指标和指标项的关系进行映射,完成数据分析模型所学的结构化数据拼接,其中,相似度计算包括如下步骤:步骤1、对所有问卷中的问题进行归类标记,包括文本型、定序型、定比型和定类型4大类,其中文本型包含但不限于姓名、家庭住址等自由度较高的文本型问题;定序型包含具有顺序信息的选项问题;定类型包含类别型选项问题;定比型包含数值型问题;步骤2、对上述4大类标记数据,进行相似度计算,包括以下步骤:针对文本型问题,通过短文本相似度算法计算两份问卷中同一文本型问题的相似度,得到每一问题的相似值为Sti,i=0,1,...,q1,q1代表两问卷相同的文本型问题的个数,任意两段文本的相似度St的计算方法包括以下步骤:步骤201、设两段文本分别为T1={w1,w2,w3,...,wm}和T2={w1,w2,w3,...,wn},其中,wm为文本T1中的第m个字符,wn为文本T2中的第n个字符;对文本T1和文本T2取并集,并去除重复字符得到字符集T={w1,w2,w3,...,wp},wp为字符集T中的第p个字符;步骤202、计算字符集T中每个字符在文本T1和文本T2中出现的次数分别为M={m1,m2,...,mp}和N={n1,n2,...,np},mp为字符集T中的第p个字符在文本T1中出现的次数,np为字符集T中的第p个字符在文本T2中出现的次数;步骤203、计算文本T1和文本T2的相似度St:...

【技术特征摘要】
1.一种基于指标存储模型的双向映射队列研究信息系统,其特征在于,包括:基础问卷模板库,用户根据研究或者业务需求设计问卷模板后,依据该问卷模板从基础问卷模板库中选择基础问卷模板,基础问卷模板中的各个问卷项由问卷项id来进行区分,对选中的基础问卷模板进行增改和调整来构建个性化问卷模板,若未选中基础问卷模板,则直接根据预先设计的问卷模板生成个性化问卷模板,并将预先设计的问卷模板作为新的基础问卷模板添加入基础问卷模板库中;自动化表单组件,依据个性化问卷模板利用自动化表单组件生成问卷,问卷中,受访者完成问卷中各问卷项的填写后,对问卷进行数据采集,将采集到的数据存储在无结构的键值对key-value队列中;指标库,采集得到的键值对key-value队列数据自动映射到指标库,指标库利用指标存储模型构建,指标存储模型用于将基础问卷模板中提取出的各项指标项进行建模,包含指标名称、指标层级结构、组合指标标识、数据类型、数据来源、时间戳、隐私属性、常规显示属性,指标存储模型利用指标层级结构和数据类型将key-value队列数据映射到指标库的数据进行了规范,映射时,所采用的规则如下:规则一)单对单:表示单一问卷项即可表示单一的指标名项;规则二)多对单:表示重复的指标项,即多个相同意义的问卷项多次出现在问卷中;规则三)单对多:表示一个问卷项对应多个指标项,即一个问卷项的意义需要多个指标项来共同表示;数据分析模型,通过数据分析模型与指标库的映射将来自多个数据源的数据按照相似度分析,并且将数据按照数据标准存入指标库,根据数据分析模型中数据指标和指标项的关系进行映射,完成数据分析模型所学的结构化数据拼接,其中,相似度计算包括如下步骤:步骤1、对所有问卷中的问题进行归类标记,包括文本型、定序型、定比型和定类型4大类,其中文本型包含但不限于姓名、家庭住址等自由度较高的文本型问题;定序型包含具有顺序信息的选项问题;定类型包含类别型选项问题;定比型包含数值型问题;步骤2、对上述4大类标记数据,进行相似度计算,包括以下步骤:针对文本型问题,通过短文本相似度算法计算两份问卷中同一文本型问题的相似度,得到每一问题的相似值为Sti,i=0,1,...,q1,q1代表两问卷相同的文本型问题的个数,任意两段文本的相似度St的计算方法包括以下步骤:步骤201、设两段文本分别为T1={w1,w2,w3,...,wm}和T2={w1,w2,w3,...,wn},其中,wm为文本T1中的第m个字符,wn为文本T2中的第n个字符;对文本T1和文本T2取并集,并去除重复字符得到字符集T={w1,w2,w3,...,wp},wp为字符集T中的第p个字符;步骤202、计算字符集T中每个字符在文本T1和文本T2中出现的次数分别为M={m1,m2,......

【专利技术属性】
技术研发人员:路平孙鑫陈兴栋张敬谊李光亚郑月郑明松丁海明
申请(专利权)人:万达信息股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1