一种识别呼叫中心骚扰电话的方法及系统技术方案

技术编号:23562148 阅读:28 留言:0更新日期:2020-03-25 06:49
本发明专利技术公开了一种识别呼叫中心骚扰电话的方法及系统,具体为,先进行电话通话因子基准向量的建模,建模过程为:获取呼叫中心全量电话第一通话数据基础表,构建通话特征,生成第一通话特征宽表,生成通话因子挖掘表,生成电话号码的分类,其类中心确定为骚扰电话通话因子基准向量;然后进行骚扰电话识别,具体为:获取待识别电话的第二通话数据基础表;生成第二通话特征宽表,再生成待识别电话的通话因子向量,计算骚扰电话通话因子基准向量与通话因子向量之间的相似度。建模过程仅需要一次聚类和专家经验,此后不再需要人工参与,降低主观性;识别过程仅提取待识别电话的短周期通话数据,数据获取工作量小、运算量小、耗时短。

A method and system of identifying the harassing phone in call center

【技术实现步骤摘要】
一种识别呼叫中心骚扰电话的方法及系统
本专利技术涉及电信行业所提供的呼叫中心服务
,具体来说是一种识别呼叫中心骚扰电话的方法及系统。
技术介绍
电信行业基础运营商为企业提供呼叫中心服务,企业通过租赁呼叫中心坐席实现集中化的客户运营,运营内容包括但不限于客户发展、客户关怀、客户维系等。呼叫中心为企业降低了运营成本,避免了不必要的重复建设,但个别企业利用呼叫中心向电信用户进行过度的电话营销,构成了事实上的电话骚扰,部分还涉及电话欺诈。电信行业基础运营商需要对呼叫中心的企业进行监管,杜绝电话骚扰行为,但不良企业会通过假冒行业和伪造运营内容来绕过运营商的监管。在以往的专利申请(CN201910548703.0)中,提出在获取客户通话数据的通话时间,通信对象、通信频次和通话时长作为主要的聚类特征后,利用K-means聚类算法对通话数据进行分类,确定骚扰电话所属分类,并对骚扰电话进行有效拦截,从而大大降低电话的骚扰频率,为客户提供最佳用户体验。但是该技术依然存在以下缺点:1、每次识别都需要全量电话的长周期通话数据,数据获取工作量大、运算量大、耗时长;2、每次识别都需要业务专家对聚类结果进行分析,人工参与度和主观性高;3、每次识别的聚类结果可能存在很大差异,缺乏对骚扰电话稳定的通话特征刻画;4、具有大量通话特征的情况时,聚类之间的差异性可解释性低,特别是骚扰电话分类主要特点无法描述。
技术实现思路
本专利技术所要解决的技术问题为现有技术中骚扰电话识别技术运算量、主观性强。本专利技术通过以下技术手段实现解决上述技术问题的:一种识别呼叫中心骚扰电话的方法,包括以下步骤:先进行骚扰电话基准向量建模:S01,获取呼叫中心全量电话在长周期内的第一通话数据基础表;S02,基于S01中第一通话数据基础表,构建通话特征,生成第一通话特征宽表;S03,基于S02通话特征宽表,使用因子分析降维,生成通话因子挖掘表;S04,基于S03中的通话因子挖掘表,使用聚类算法,生成电话号码的分类;S05,根据S04中K个分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;再进行骚扰电话识别:S06,获取待识别电话在短周期内的第二通话数据基础表;S07,基于S06中第二通话数据基础表,按S02中的通话特征构建方法,生成第二通话特征宽表,并使用S03中的因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;S08,使用相似度算法,计算S05中骚扰电话通话因子基准向量Vbasic与S07中待识别电话的通话因子向量Vnbr之间的相似度Simnbr;S09,根据S09中的相似度Simnbr和既设的骚扰等级区间,判定待识别电话的骚扰等级Lnbr。建模过程仅需要一次聚类和专家经验,此后不再需要人工参与,降低主观性;识别过程仅提取待识别电话的短周期通话数据,数据获取工作量小、运算量小、耗时短;建立骚扰电话稳定的通话因子基准向量;使用因子分析(FA)技术对高维通话特征空间进行降维,提高骚扰电话分类主要特点的可解释性。优选的,所述步骤S01中,所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据;所述第一通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。优选的,所述步骤S02中,所述第一通话特征宽表中表征性指标至少包括主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数。优选的,所述步骤S03中具体包括:S0301,对通话特征做是否适合因子分析的检验,如通过检验,则进入下一步骤S0302,如不通过检验,则返回S02重新构建通话特征;S0302,提取公因子,使用累计方差贡献率阈值选取TOP-N个公因子;S0303,采用最大方差法进行因子旋转,提高公因子含义的可解释性;S0304,计算因子得分,即每个样本在TOP-N个公因子上的分值,生成通话因子挖掘表,保存为因子得分计算模型Mfa。优选的,所述步骤S04中采用K-means聚类算法生成电话号码的分类。优选的,所述步骤S05具体为通过业务专家人工选出骚扰电话所述人类。优选的,所述步骤S06中,所述第二通话数据基础表为信令数据中待识别电话的主被叫数据;第二通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。优选的,所述步骤S08中具体为:采用余弦相似度算法计算Simnbr,余弦相似度的计算公式如下:其中:Simnbr为相似度,Vnbr为待识别电话的通话因子向量,Vbasic为骚扰电话通话因子基准向量,θ为Vnbr、Vbasic两个向量之间的夹角,Vnbri、Vbasici为Vnbr、Vbasic两个向量的分量,n为Vnbr、Vbasic两个向量的维数。优选的,所述步骤S09中具体为:S0901,设定骚扰等级区间,不失一般性,例如[-1,0.5)为非骚扰,[0.5,0.8]为疑似骚扰,(0.8,1]为认定骚扰;S0902,以S08输出的相似度Simnbr匹配S0901的骚扰等级区间,输出相应的骚扰等级Lnbr。本专利技术基于上述方法提供的识别呼叫中心骚扰电话的系统,包括第一数据获取模块,用于获取通话数据,建立通话第一数据基础表;特征加工模块,用于从通话数据基础表生成通话特征宽表;因子分析模块,用于从通话特征宽表生成通话因子挖掘表;聚类算法模块,用于从通话因子挖掘表,使用聚类算法,生成电话号码的分类;骚扰电话通话因子基准向量生成模块,用于根据分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;第二数据获取模块,用于获取通话数据,建立通话第二数据基础表;数据处理模块,基于第二通话数据基础表,按特征加工模块进行特征构建方法,生成第二通话特征宽表,并采用因子分析模块中因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;相似度计算模块,用于使用相似度算法,计算骚扰电话通话因子基准向量与待识别电话的通话因子向量之间的余弦相似度;骚扰等级计算模块,用于根据既设区间对待识别电话输出骚扰等级。本专利技术的优点在于:1、建模过程仅需要一次聚类和专家经验,此后不再需要人工参与,降低主观性;2、识别过程仅提取待识别电话的短周期通话数据,数据获取工作量小、运算量小、耗时短;3、建立骚扰电话稳定的通话因子基准向量;4、使用因子分析(FA)技术对高维通话特征空间进行降维,提高骚扰电话分类主要特点的可解释性。附图说明图1为本专利技术实施例中识别呼叫中心骚扰电话的方法的流程框图;图2为本专利技术实施例中识别呼叫中心骚扰电话的方法中骚扰电话基准向本文档来自技高网...

【技术保护点】
1.一种识别呼叫中心骚扰电话的方法,其特征在于:包括以下步骤:/n先进行骚扰电话基准向量建模:/nS01,获取呼叫中心全量电话在长周期内的第一通话数据基础表;/nS02,基于S01中第一通话数据基础表,构建通话特征,生成第一通话特征宽表;/nS03,基于S02通话特征宽表,使用因子分析降维,生成通话因子挖掘表;/nS04,基于S03中的通话因子挖掘表,使用聚类算法,生成电话号码的分类;/nS05,根据S04中分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量V

【技术特征摘要】
1.一种识别呼叫中心骚扰电话的方法,其特征在于:包括以下步骤:
先进行骚扰电话基准向量建模:
S01,获取呼叫中心全量电话在长周期内的第一通话数据基础表;
S02,基于S01中第一通话数据基础表,构建通话特征,生成第一通话特征宽表;
S03,基于S02通话特征宽表,使用因子分析降维,生成通话因子挖掘表;
S04,基于S03中的通话因子挖掘表,使用聚类算法,生成电话号码的分类;
S05,根据S04中分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;
再进行骚扰电话识别:
S06,获取待识别电话在短周期内的第二通话数据基础表;
S07,基于S06中第二通话数据基础表,按S02中的通话特征构建方法,生成第二通话特征宽表,并使用S03中的因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;
S08,使用相似度算法,计算S05中骚扰电话通话因子基准向量Vbasic与S07中待识别电话的通话因子向量Vnbr之间的相似度Simnbr;
S09,根据S09中的相似度Simnbr和既设的骚扰等级区间,判定待识别电话的骚扰等级Lnbr。


2.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S01中,所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据;所述第一通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。


3.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S02中,所述第一通话特征宽表中表征性指标至少包括主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数。


4.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S03中具体包括:
S0301,对通话特征做是否适合因子分析的检验,如通过检验,则进入下一步骤S0302,如不通过检验,则返回S02重新构建通话特征;
S0302,提取公因子,使用累计方差贡献率阈值选取TOP-N个公因子;
S0303,采用最大方差法进行因子旋转,提高公因子含义的可解释性;
S0304,计算因子得分,即每个样本在TOP-N个公因子上的分值,生成通话因子挖掘表,保存为因子得分计算模型Mfa。


5.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S04中...

【专利技术属性】
技术研发人员:周晓勇梁淑云刘胜马影陶景龙王启凡魏国富徐明殷钱安余贤喆
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1