【技术实现步骤摘要】
检测模型的跨域自适应方法、数据处理方法
[0001]本申请涉及无源自适应领域,具体而言,涉及一种检测模型的跨域自适应方法、数据处理方法。
技术介绍
[0002]否定检测是医学文本信息抽取中的重要任务之一。医学领域术语繁杂,行文方式多样、各医院格式要求不一,在一个医院或医联体数据上训练好的否定模型,很难在直接其他医院数据上也取得令人满意的效果;在数据不敏感领域,可以同时采集源域标注数据和目标域标注数据训练模型,但在实际场景中,医疗机构内部数据管理严格,“数据不出院”是大部分场景下的基本要求。
[0003]传统的医学文本否定检测方法,大多采用基于规则和手工特征的检测方法,无法准确捕捉复杂的语义信息,现有的基于深度学习的否定检测方法,都假设在单一领域标注数据量充足进行,不考虑跨领域情况下的模型适应情况,但是如果想要实现从源训练域到目标应用域的模型适应,则需要采集大量目标领域的标注数据,并在模型上做微调,如果想要取得更好的适应效果,则需要同时使用源领域和目标领域的标注数据。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本申请实施例提供了一种检测模型的跨域自适应方法、数据处理方法,以至少解决现有技术中医疗领域中否定检测方法的标注成本较大,在数据传输受限情况下,无法实现否定检测模型的跨域自适应的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种检测模型的跨域自适应方法,包括:获取否定检测模型,其中,上述否定检测模型是基于源域上的标注数据集 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:接收医疗设备采集到的医疗数据;采用目标检测模型抽取出所述医疗数据的文本信息,其中,所述目标检测模型是依据目标域上的无标注数据集的伪标签训练否定检测模型得到的,所述否定检测模型是基于源域上的标注数据集训练得到的,所述伪标签是基于所述否定检测模型对目标域上的无标注数据集的检测结果生成的;输出所述文本信息。2.一种检测模型的跨域自适应方法,其特征在于,包括:获取否定检测模型,其中,所述否定检测模型是基于源域上的标注数据集训练得到的;依据所述否定检测模型对目标域上的无标注数据集的检测结果,为所述无标注数据集生成伪标签;采用所述伪标签训练所述否定检测模型,得到适用于所述目标域的目标检测模型,其中,所述目标检测模型抽取所述目标域的文本信息。3.根据权利要求2所述的方法,其特征在于,依据所述否定检测模型对目标域上的无标注数据集的检测结果,为所述无标注数据集生成伪标签,包括:对所述无标注数据集中的每条无标注数据进行预测处理,得到类别预测结果,其中,所述类别预测结果包括:否定类别和非否定类别;采用所述否定检测模型对目标域上的无标注数据集进行检测,确定所述无标注数据集中每条无标注数据的否定类别概率和非否定类别概率;确定与所述类别预测结果对应的概率阈值范围;基于所述概率阈值范围、所述否定类别概率和所述非否定类别概率,为所述无标注数据集生成伪标签。4.根据权利要求3所述的方法,其特征在于,确定与所述类别预测结果对应的概率阈值范围,包括:基于所述类别预测结果确定所述无标注数据集的类别预测概率,其中,所述类别预测概率包括:否定类别概率和非否定类别概率;基于所述类别预测概率确定与所述类别预测结果对应的概率阈值范围,其中,所述概率阈值范围包括:所述否定类别对应的第一概率阈值范围、所述非否定类别对应的第二概率阈值范围。5.根据权利要求4所述的方法,其特征在于,基于所述概率阈值范围、所述否定类别概率和所述非否定类别概率,为所述无标注数据集生成伪标签,包括:确定与所述否定类别概率对应的第一搜索步长,以及与所述非否定类别概率的第二搜索步长;在网格化概率阈值搜索空间内,基于所述第一搜索步长从所述第一概率阈值范围中选取第一概率阈值,以及基于所述第二搜索步长从所述第一概率阈值范围中选取第二概率阈值;分别比较所述否定类别概率和所述第一概率阈值,以及所述非否定类别概率和所述第二概率阈值的大小,得到比较结果;若所述比较结果指示所述否定类别概率大于所述第一概率阈值,和/或所述非否定类
别概率大于所述第二概率阈值,则生成所述伪标签。6.根据权利要求2所述的方法,其特征在于,依据所述否定检测模型对目标域上的无标注数据集的检测结果,为所述无标注数据集生成伪标签,还包括:采用所述否定检测模型计算所述无标注数据集的平均熵,其中,所述平均熵用于确定类别预测结果在所述无标注数据集上的不确定性;遍历网格化概率阈值搜索空间,将最小的所述平均熵对应的网格单元的非否定类别概率作为正样本阈值,以及将最小的所述平均熵对应的网格单元的否定类别概率作为负样本阈值;基于所述正样本阈值和所述负样本阈值,为所述无标注数据集生成所述伪标签。7.根据权利要求6所述的方法,其特征在于,基于所述正样本阈值和所述负样本阈值,为所述无标注数据集生成所述伪标签,包括:基于所述正样本阈值和所述负样本阈值,分别从所述无标注数据集中筛选出对应的无标注数据,其中,所述无标注数据包括:正样本数据和负样本数据;分别为所述正样本数据和所述负样本数据生成相应的伪标签,得到原型样本数据;采用所述否定检测模型作为特征抽取器,分别抽取所述原型样本数据的特征向量构成样本向量集合,其中,所述样...
【专利技术属性】
技术研发人员:孙晋权,
申请(专利权)人:阿里巴巴新加坡控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。