一种从销售会话中确定会话主体角色标签的方法及系统技术方案

技术编号:32669888 阅读:13 留言:0更新日期:2022-03-17 11:23
本发明专利技术公开了一种从销售会话中确定会话主体角色标签的方法,属于自然语言处理技术领域,解决了目前销售会话存在的角色标签识别效果较差的问题。该方法包括:对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;根据销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;过滤符合过滤规则的会话片段,得到备用会话片段;分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。角色标签。角色标签。

【技术实现步骤摘要】
一种从销售会话中确定会话主体角色标签的方法及系统


[0001]本专利技术涉及自然语言处理
,尤其涉及一种从销售会话中确定会话主体角色标签的方法及系统。

技术介绍

[0002]在销售会话系统中,获取会话音频或视频、并将会话音频或视频快速准确的转换为文本对话,是企业提取分析销售数据、进行后续决策与经营活动的重要前提。将会话音频或视频转换成文本对话中的重要的一环是:如何从多种对话行业、多个说话人身份中快速精准的确认说话人(即会话主体)角色标签。
[0003]销售领域中涉及的行业众多,相应地,说话人在销售对话系统中也有很多可能的角色。根据根对话所涉及的领域,说话人的身份可能是“猎头”、“候选人”、“售后客服”、“代理商”等中的任何一个,因此对说话人角色标签进行确认存在一定的挑战。业界的角色标签确认方案主要可分为人工确认方法与基于关键词匹配的方法,其中:
[0004]基于人工确认的方法需要在获取到文本会话内容后,通过人工介入以确认说话人角色标签。这种方法严重依赖于操作人员的经验水平与处理速度,效率低,不适合批量处理大规模会话内容,更不利于整个销售系统的自动化。
[0005]基于关键词匹配的方法通过预设一部分关键词,在获取到文本会话内容后,通过匹配关键词的方式确认说话人的角色标签。这种方法需要根据先验知识提取行业相关关键词,因此无法直接应用于新的行业及领域,扩展性较差。此外,由于说话人所处通话环境的复杂性、录音硬件的质量及业界自动语音识别技术的局限性等因素,在通过自动语音识别技术得到的文本内容的效果较差的情况下,转录文本中可能存在大量的错误文字,基于关键词的方案将难以得到良好的结果。

技术实现思路

[0006]鉴于上述的分析,本专利技术实施例旨在提供一种从销售会话中确定说话人角色标签的方法及系统,用以解决目前销售会话存在的角色标签识别效果较差的问题。
[0007]一方面,本专利技术公开了一种从销售会话中确定会话主体角色标签的方法,包括:
[0008]对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;
[0009]根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;
[0010]过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;
[0011]分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;
[0012]根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。
[0013]在上述方案的基础上,本专利技术还做出了如下改进:
[0014]进一步,通过执行以下操作确定各会话主体的角色标签:
[0015]分别获取第i个会话主体被识别为第一角色标签、第二角色标签的综合得分FS
i
、FC
i

[0016][0017][0018]其中,NS
i
、NC
i
分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;NS
j
、NC
j
分别表示第j个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;MS
i
、MC
i
分别表示第i个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;MS
j
、MC
j
分别表示第j个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;α表示角色识别加权系数;i、j的取值范围均为1到N,N表示会话主体的总数,N为大于等于2的整数;
[0019]若FS
i
>FC
i
,则第i个会话主体的角色标签为第一角色标签;若FS
i
<FC
i
,则第i个会话主体的角色标签为第二角色标签。
[0020]进一步,通过执行以下操作获取每一会话主体在正则规则库方式下被识别为各角色标签的得分:
[0021]获取每一备用会话片段匹配于各角色标签的正则规则库中正则规则的数量,并将该备用会话片段标记为匹配正则规则数量较多的一方的角色标签;
[0022]分类汇总各备用会话片段的角色标签的数量,得到每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量;
[0023]对每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量进行归一化处理,得到每一会话主体在正则规则库方式下被识别为相应角色标签的得分。
[0024]进一步,通过以下公式实现所述归一化处理,从而得到每一会话主体在正则规则库方式下被识别为各角色标签的得分:
[0025]第i个会话主体在正则规则库方式下被识别为第一角色标签的得分NS
i

[0026][0027]第i个会话主体在正则规则库方式下被识别为第二角色标签的得分NC
i

[0028][0029]其中,S
i
、C
i
分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的数量。
[0030]进一步,通过执行以下操作获取每一会话主体在机器学习方式下被识别为各角色标签的得分:
[0031]获取每一备用会话片段的特征向量;
[0032]将每一备用会话片段的特征向量分别输入至机器学习模型,由机器学习模型处理所述特征向量,得到每一备用会话片段被识别为各角色标签的概率;
[0033]将每一会话主体的全部备用会话片段被识别为每一角色标签的概率平均值,作为该会话主体在机器学习方式下被识别为相应角色标签的得分。
[0034]进一步,通过执行以下操作获取每一备用会话片段的特征向量:
[0035]对每一备用会话片段进行分词、滤除停用词处理,获得每一备用会话片段的词语列表;
[0036]获取所述词语列表中每个词的词向量编码及tf

idf值;
[0037]以每个词的tf

idf值为该词的词向量编码的权重,分别对所有词向量编码中的每一维元素分别进行加权,将加权处理后得到的单一词向量编码作为当前备用会话片段的特征向量。
[0038]进一步,所述机器学习模型为双向长短期记忆模型;
[0039]或者,
[0040]所述机器学习模型包括以下三个模型:支持向量机、Adaboost及双向长短期记忆模型;当机器学习模型包括三个模型时,分别得到每一备用会话片段在各个模型下被识别为各角色标签的概率,将三个模型的概率的加权结果作为该备用会话片段被识别为相应角色标签的概率。
[0041]进一步,根据两种方式的角色识别正确率,调整所述角色识别加权系数α。
[0042]进一步,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种从销售会话中确定会话主体角色标签的方法,其特征在于,包括:对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。2.根据权利要求1所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过执行以下操作确定各会话主体的角色标签:分别获取第i个会话主体被识别为第一角色标签、第二角色标签的综合得分FS
i
、FC
i
::其中,NS
i
、NC
i
分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;NS
j
、NC
j
分别表示第j个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;MS
i
、MC
i
分别表示第i个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;MS
j
、MC
j
分别表示第j个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;α表示角色识别加权系数;i、j的取值范围均为1到N,N表示会话主体的总数,N为大于等于2的整数;若FS
i
>FC
i
,则第i个会话主体的角色标签为第一角色标签;若FS
i
<FC
i
,则第i个会话主体的角色标签为第二角色标签。3.根据权利要求2所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过执行以下操作获取每一会话主体在正则规则库方式下被识别为各角色标签的得分:获取每一备用会话片段匹配于各角色标签的正则规则库中正则规则的数量,并将该备用会话片段标记为匹配正则规则数量较多的一方的角色标签;分类汇总各备用会话片段的角色标签的数量,得到每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量;对每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量进行归一化处理,得到每一会话主体在正则规则库方式下被识别为相应角色标签的得分。4.根据权利要求3所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过以下公式实现所述归一化处理,从而得到每一会话主体在正则规则库方式下被识别为各角色标签的得分:第i个会话主体在正则规则库方式下被识别为第一角色标签的得分NS
i
...

【专利技术属性】
技术研发人员:陈竑韩三普杨晨
申请(专利权)人:北京深维智信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1