本发明专利技术公开了一种医学术语校对任务分配的方法,其包括以下步骤:将原始的医学术语聚类,得到疑似同义术语簇,每个同义术语簇为一个校对任务;在校对人员集合中计算每个校对人员的推荐指数;计算校对人员擅长的领域;根据推荐指数和承担任务的范围,分配校对任务;构建医学术语校对任务的训练集和测试集,将训练集送入BP神经网络模型中进行训练,用测试集去测试模型性能,最终实现权重的更新。实验表明,本方法有效解决了医学术语专业性强,任务分配困难的问题。
A Method of Task Allocation for Medical Terminology Proofreading
【技术实现步骤摘要】
一种医学术语校对任务分配的方法
本专利技术属于医疗信息处理领域,更为具体地,尤其涉及一种医学术语校对任务分配的方法。
技术介绍
为了构建医疗术语知识库,需要人工校对术语之间是否存在同义词关系。目前人工校对过程任务分配主要采用两种模式:(1)招募少量医疗领域的专业人员,按比例分配任务;(2)采用众包方式通过互联网以自由自愿的形式完成校对工作。由于术语数量往往非常大,因此专业人员校对术语成本较高。而采用众包方式分配医疗术语校对任务面临的主要问题是由于医疗术语的专业性很强,对人员的要求高,难以自动筛选适合的人员。综上所述,本领域亟需一种新的医学术语校对任务分配的方法来解决上述问题。
技术实现思路
有鉴于此,本专利技术公开了医学术语校对任务分配的方法,提高了任务分配方式的准确性。其方法包括:将原始的医学术语聚类,得到疑似同义术语簇,每个同义术语簇为一个校对任务;在校对人员集合中计算每个校对人员的推荐指数;计算校对人员的擅长领域;根据推荐指数和承担任务的范围,分配校对任务;构建医学术语校对任务的训练集和测试集,训练一个4输入、1输出的反向传播神经网络模型,并用测试集进行测试,若准确率超过α,则认为该模型能解决医学术语校对任务,将此时的权重ω1、ω2、ω3、ω4进行更新。计算校对人员擅长的领域步骤和根据推荐指数和承担任务的范围,分配校对任务步骤之间,还包括校对人员情绪状态筛选的过程,具体为:校对人员填写心理身体紧张松弛测试表,如若被测试者总分低于43或高于65,则不给该校对人员分配任务。优选地,将原始的医学术语聚类,得到疑似同义术语簇,每个同义术语簇为一个校对任务的过程包括:根据所述术语集合中术语名称的字面特征,通过基于密度的聚类算法,将不同的术语名称和术语缩写分别聚类得到术语簇集C={c1,c2,...,cn},其中,术语簇中ci包括多个术语名称和术语缩写;然后将ci中每个术语名称和术语缩写对应的类别加入到类别集合D'i={D'1,D'2,...,D'n};最后设定每个ci为一个任务。优选地,在校对人员集合中计算每个校对人员的推荐指数的过程中包括:获取校对人员的职称、临床经验、患者推荐热度值、工作时间,采集的数据来源,一方面来自于校对人员自行录入;另一方面来源于爬取目前主流的医疗问诊网站。取每位校对人员对应于这4个字段的两方面数据来源结果的交集作为各字段值。计算校对人员的职称推荐值wi,将所述职称映射到从高至低的五档职称推荐值中,其中最高档职称推荐值为1,最低档职称推荐值为0,每档跨度为0.25;计算校对人员的临床经验值eis,eis的计算方法如下:其中,ei表示所述校对人员的临床经验,临床经验为校对人员诊治过的患者数量;计算患者推荐热度值ris,计算方法如下:其中,ri表示某校对人员在预设的医疗网站中获得的患者推荐热度值;计算校对人员的工作时间经验值tis,其中ti为校对人员的工作时间,工作时间以月为单位进行统计;根据职称推荐值wi、临床经验值eis、患者推荐热度值ris、工作时间经验值tis,借助于层次分析法,计算得到校对人员的推荐指数scorei。优选地,计算校对人员擅长的领域的步骤,包括:采集校对人员的擅长领域Di={A1,A2,...,An};在预设的医疗网站中获取校对人员的擅长领域集加入到Di中;将临床数据库中抽取出的诊断名称和检验分类加入到Di中,形成最终校对人员擅长的领域Di。根据推荐指数和承担任务的范围,分配校对任务的步骤包括:根据校对人员的scorei排序形成一个有序队列PA={d1,d2,...,dn}.;将志愿者di的擅长领域集Di={A1,A2,...,An}与ci任务类别集合D'i={D'1,D'2,...,D'n}计算得到任务匹配度tdi,计算公式为:如果匹配度tdi高于ε,且校对人员di的任务数小于N,则将任务分配;将校对人员di的任务数dir加1,重复以上步骤,直到校对任务分配完毕。当ε的值为0.7,任务数N为10时,校对人员任务分配效果最好。利用校对人员的任务分配情况,构建医学术语校对任务的训练集和测试集,用训练集训练一个4输入、1输出的反向传播神经网络模型,并用测试集进行测试,若准确率超过α,则认为该模型能解决医学术语校对任务,并将权重ω1、ω2、ω3、ω4进行更新。相比于现有技术,本专利技术的方法能有效解决医学术语专业性强,任务分配困难的问题。根据下面参考附图对示例性实施例的详细说明,本专利技术的其它特征及方面将变得清楚。附图说明读者在参照附图阅读了本专利技术的具体实施方式以后,将会更清楚地了解本专利技术的各个方面。其中,图1示出依据本专利技术的一实施方式,一种医学术语校对任务分配的方法。图2示出反向传播神经网络模型图。具体实施方式参照图1,在该实施方式中,本专利技术的医学术语校对任务分配的方法通过以下步骤予以实现。将原始的医学术语聚类,得到疑似同义术语簇,每个同义术语簇为一个校对任务;在校对人员集合中计算每个校对人员的推荐指数;计算校对人员的擅长领域;根据推荐指数和承担任务的范围,分配校对任务;构建医学术语校对任务的训练集和测试集,将训练集送入构建的反向传播神经网络模型中,用测试集去测试模型性能,进而实现权重更新。其中,校对人员可以是召集的志愿者,也可以是众包系统中的用户,或者是医疗机构的医疗人员。计算校对人员擅长的领域步骤和根据推荐指数和承担任务的范围,分配校对任务步骤之间,还包括校对人员情绪状态筛选的过程,具体为:校对人员填写心理身体紧张松弛测试表,如若被测试者总分低于43或高于65,则不给该校对人员分配任务。优选地,将原始的医学术语聚类,得到疑似同义术语簇,每个同义术语簇为一个校对任务的过程包括:根据所述术语集合中术语名称的字面特征,通过基于密度的聚类算法,将不同的术语名称和术语缩写分别聚类得到术语簇集C={c1,c2,...,cn},其中,术语簇中ci包括多个术语名称和术语缩写;然后将ci中每个术语名称和术语缩写对应的类别加入到类别集合D'i={D'1,D'2,...,D'n};最后设定每个ci为一个任务。优选地,在校对人员集合中计算每个校对人员的推荐指数的过程中包括:获取校对人员的职称、临床经验、患者推荐热度值、工作时间。一方面,每位校对人员在参与校对任务前需要填写一份含这4个字段的表单;另一方面,为了验证校对人员填写内容的可信度,利用爬虫技术爬取目前主流的医疗问诊网站,例如:好大夫,寻医问药网等,获取各位校对人员的职称、临床经验、工作时间、患者推荐热度值。如果校对人员填写的数据与爬取得到的各字段存在交集,那么将交集内容作为该校对人员对应的字段值。计算校对人员的职称推荐值wi,将所述职称映射到从高至低的五档职称推荐值中,其中最高档职称推荐值为1,最低档职称推荐值为0,每档跨度为0.25;计算校对人员的临床经验值eis,eis的计算方法如下:其中,ei表示所述校对人员的临床经验,临床经验为校对人员诊治过的患者数量;计算患者推荐热度值ris,计算方法如下:其中,ri表示某校对人员在预设的医疗网站中获得的患者推荐热度值;计算校对人员的工作时间经验值tis,其中ti为校对人员的工作时间,工作时间以月为单位进行统计;根据职称推荐值wi、临床经验值eis、患者推荐热度值ris、工作时间经验值t本文档来自技高网...
【技术保护点】
1.一种医学术语校对任务分配的方法,其特征在于,所述方法包括以下步骤:将原始的医学术语聚类,得到疑似同义术语簇,每个同义术语簇为一个校对任务;在校对人员集合中计算每个校对人员的推荐指数;计算校对人员的擅长领域;根据推荐指数和承担任务的范围,分配校对任务;构建医学术语校对任务的训练集和测试集,将训练集送入构建的反向传播神经网络模型中,用测试集去测试模型性能,进而实现权重更新。
【技术特征摘要】
1.一种医学术语校对任务分配的方法,其特征在于,所述方法包括以下步骤:将原始的医学术语聚类,得到疑似同义术语簇,每个同义术语簇为一个校对任务;在校对人员集合中计算每个校对人员的推荐指数;计算校对人员的擅长领域;根据推荐指数和承担任务的范围,分配校对任务;构建医学术语校对任务的训练集和测试集,将训练集送入构建的反向传播神经网络模型中,用测试集去测试模型性能,进而实现权重更新。2.根据权利要求1所述的方法,其特征在于,将原始的医学术语聚类,得到疑似同义术语簇,每个同义术语簇为一个校对任务的过程包括:根据所述术语集合中术语名称的字面特征,通过基于密度的聚类算法,将不同的术语名称和术语缩写分别聚类得到术语簇集C={c1,c2,...,cn},其中,术语簇中ci包括多个术语名称和术语缩写;将ci中每个术语名称和术语缩写对应的类别加入到类别集合D′i={D′1,D′2,...,D′n};设定每个ci为一个任务。3.根据权利要求1所述的方法,其特征在于,在校对人员集合中计算每个校对人员的推荐指数的过程中包括:获取校对人员的职称、临床经验、患者推荐热度值、工作时间;计算校对人员的职称推荐值wi,将所述职称映射到从高至低的五档职称推荐值中,其中最高档职称推荐值为1,最低档职称推荐值为0,每档跨度为0.25;计算校对人员的临床经验值eis,eis的计算方法如下:其中,ei表示所述校对人员的临床经验,临床经验为校对人员诊治过的患者数量;计算患者推荐热度值ris,计算方法如下:其中,ri表示某校对人员在预设的医疗网站中获得的患者推荐热度值;计算校对人员的工作时间经验值tis,其中ti为校对人员的工作时间,工作时间以月为单位进行统计;根据职称推荐值wi、临床经验值eis、患者推荐热度值ris、工作时间经验值tis,借助于层次分析法,计算得到校对人员的推荐指数scorei。4.根据权利要求3所述的方法,其特征在...
【专利技术属性】
技术研发人员:何萍,张晨童,姚华彦,张佳影,魏明月,阮彤,
申请(专利权)人:上海申康医院发展中心,华东理工大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。