一种用于车辆保险理赔的文本清洗方法及系统技术方案

技术编号:39719059 阅读:17 留言:0更新日期:2023-12-17 23:25
本发明专利技术涉及信息技术领域,具体公开了一种用于车辆保险理赔的文本清洗方法,包括:步骤

【技术实现步骤摘要】
一种用于车辆保险理赔的文本清洗方法及系统


[0001]本专利技术涉及信息
,具体涉及一种用于车辆保险理赔的文本清洗方法及系统


技术介绍

[0002]车辆保险通常对于以下造成保险车辆的损失,通常存在责任免除::违反

道路交通管理条例

中有关机动车辆装载的规定;自然磨损

朽蚀

故障

轮胎单独损坏
(
轮胎包括外胎及轮辋
)
;两轮及轻便摩托车停放期间翻倒的损失;保险车辆涉水行驶或被水淹后致使发动机损坏;非被保险人或其允许的驾驶员使用保险车辆;驾驶员饮酒

吸毒

被药物麻醉;没有驾驶证;驾驶与驾驶证准驾车型不相符合的车辆;持军队或武警部队驾驶证驾驶地方车辆;持地方驾驶证驾驶军队或武警部队车辆;公安交通管理部门规定的其他属于无有效驾驶证的情况;保险车辆肇事逃逸等等情况;
[0003]这些情况通常以文本方式存在,所以车辆保险的文本清洗可抽象为文本分类问题,该类问题一般有三种解决方案:
[0004]1)
专家系统:采用基于规则的文本处理技术,通过手动编写规则,,穷举关键字等方法提取信息

这类方法在处理描述标准的理赔文本时效果尚可,但对于较为复杂的文本力不从心

原因在于无法通过有限的规则和关键字覆盖无限的语言描述

[0005]2)
机器学习:基于统计理论的机器学习算法,例如朴素贝叶斯
/KNN/SVM
等,优点在于可解释性较强,但精度不及深度学习算法

[0006]3)
深度学习:采用深度神经网络模型,可自动通过训练学习如何提取文本标签,从而完成分类任务,精度高但可解释性差

[0007]综上所述,为了追求高准确率的车辆保险的文本清洗,本专利技术提出采用基于深度学习的自然语言处理模型
(NLP)—BERT
,它的主要模型结构是
Transformer
的框架,通过训练以及在各个具体任务上进行迁移学习

[0008]BERT
作为当前最成熟的基于深度学习的自然语言处理模型之一,具有如下几个优势:
[0009]基于
Transformer
:相较于
LSTM

BERT
基于
Transformer
,信息提取能力更强,可提取长距离关系,没有梯度消失问题且为双向语言模型
[0010]参数量大:由多种
embedding
策略

注意力机制

残差网络等结构组成,包含亿级参数,可拟合更加复杂的映射关系

[0011]预训练技术:
Bert
训练模型基于
Mask Language Modeling

Next Sentence Prediction
两种方式进行预训练,使模型具有通用的语义理解能力

[0012]易于迁移学习:训练
+
迁移学习已经成为自然语言处理建模的标准范式,基于训练模型在保险场景下进行微调


技术实现思路

[0013]针对上述问题,本专利技术提供一种用于车辆保险理赔的文本清洗方法及系统,通过人工智能的
NLP
技术,对理赔文本中的定责和定残文本进行提取,从而支持保险业务开展

[0014]本专利技术提供了一种用于车辆保险理赔的文本清洗方法,包括:
[0015]步骤
S10
,通过爬虫模块爬取外部数据,根据所述外部数据构建车辆保险理赔的知识库;
[0016]步骤
S20
,将所述知识库中的数据转换成指定格式,得到语料库;
[0017]步骤
S30
,基于
NLP
模型训练模块,根据所述语料库对
Bert
模型
、RoBERTa
模型和
Ernie
模型分别进行训练,得到用于车辆保险理赔的
Pytorch
模型;
[0018]步骤
S40
,接收用户输入的半结构化目标数据,将所述半结构化目标数据解析成所述
Pytorch
模型可识别的结构化目标数据;
[0019]步骤
S50
,通过所述
Pytorch
模型对所述结构化目标数据进行识别,确定是否理赔

[0020]在一种可能的实现方式中,所述
S10
包括:
[0021]通过爬虫模块爬取外部数据,并对所述外部数据进行清洗和转化

[0022]在一种可能的实现方式中,所述
S20
包括:
[0023]提取所述知识库的文本内容中的关键字,并根据所述关键字确定所述文本内容的标签;
[0024]根据所述文本内容

所述关键字和所述标签,生成所述语料库

[0025]在一种可能的实现方式中,所述
S30
包括:
[0026]根据所述语料库对所述
Bert
模型

所述
RoBERTa
模型和所述
Erniie
模型分别进行训练,得到所述
Bert
模型的判断概率

所述
RoBERTa
模型的判断概率和所述
Ernie
模型的判断概率;
[0027]根据所述
Bert
模型

所述
RoBERTa
模型和所述
Ernie
模型,以及所述
Bert
模型的判断概率

所述
RoBERTa
模型的判断概率和所述
Ernie
模型的判断概率,,得到用于车辆保险理赔的
Pytorch
模型

[0028]在一种可能的实现方式中,所述
S40
包括:
[0029]通过
API
接口接收所述半结构化目标数据

[0030]在一种可能的实现方式中,所述
S40
包括:
[0031]通过
Web
页面接收所述半结构化目标数据

[0032]在一种可能的实现方式中,所述
S50
包括:
[0033]所述
Pytorch
模型对所述结构化目标数据进行识别,得到所述
Bert
模型的判断概率

所述...

【技术保护点】

【技术特征摘要】
1.
一种用于车辆保险理赔的文本清洗方法,其特征在于,包括:步骤
S10
,通过爬虫模块爬取外部数据,根据所述外部数据构建车辆保险理赔的知识库;步骤
S20
,将所述知识库中的数据转换成指定格式,得到语料库;步骤
S30
,基于
NLP
模型训练模块,根据所述语料库对
Bert
模型
、RoBERTa
模型和
Ernie
模型分别进行训练,得到用于车辆保险理赔的
Pytorch
模型;步骤
S40
,接收用户输入的半结构化目标数据,将所述半结构化目标数据解析成所述
Pytorch
模型可识别的结构化目标数据;步骤
S50
,通过所述
Pytorch
模型对所述结构化目标数据进行识别,确定是否理赔
。2.
根据权利要求1所述的文本清洗方法,其特征在于,所述
S10
包括:通过爬虫模块爬取外部数据,并对所述外部数据进行清洗和转化
。3.
根据权利要求1所述的文本清洗方法,其特征在于,所述
S20
包括:提取所述知识库的文本内容中的关键字,并根据所述关键字确定所述文本内容的标签;根据所述文本内容

所述关键字和所述标签,生成所述语料库
。4.
根据权利要求1所述的文本清洗方法,其特征在于,所述
S30
包括:根据所述语料库对所述
Bert
模型

所述
RoBERTa
模型和所述
Ernie
模型分别进行训练,得到所述
Bert
模型的判断概率

所述
RoBERTa
模型的判断概率和所述
Ernie
模型的判断概率;根据所述
Bert
模型

所述
RoBERTa
模型和所述
Ernie
模型,以及所述
Bert
模型的判断概率

所述
RoBERTa
模型的判断概率和所述
Ernie
模型的判断概率,得到用于车辆保险理赔的
Pytorch
模型
。5.
根据...

【专利技术属性】
技术研发人员:郭乐深甘宗成方伟缪德江
申请(专利权)人:中科软科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1