一种自动建立个人专属语料库的方法技术

技术编号:15691044 阅读:72 留言:0更新日期:2017-06-24 03:55
本发明专利技术提供的自动建立个人专属语料库的方法,通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性,体现了较高的个性化水平。

Method for automatically establishing individual exclusive corpus

Method for automatically establishing personal corpus provided by the invention, through conversation content acquisition communication, access to the session content in a session on the scene, according to the preset label, collected a session on the corresponding tag tag value and scene scene, scene of the session and the corresponding label label label value and scene scene matching combined to generate personal corpus, solve the existing artificial establishment dialogue corpus workload and do not have individual specific technical problems. Not only greatly reduce the manual workload will establish dialogue corpus, and the scene of tags and the corresponding extraction according to the content of the communication session session to generate the value of the exclusive personal corpus with personal exclusive and highly targeted, personalized reflects the high level of.

【技术实现步骤摘要】
一种自动建立个人专属语料库的方法
本专利技术涉及通信
,具体涉及一种自动建立个人专属语料库的方法。
技术介绍
目前,智能会话系统中用于自动回复的会话回复内容,往往是通过匹配会话语料库的方式获取。上述过程中的会话语料库,主要是通过人工创建的。人工建库的工作量大,且建库质量普遍不高。此外,现有技术方案中的会话语料库几乎都是通用于所有用户的,不具备个人专属性和针对性。针对该问题,故本实施例提出了一种基于会话内容自动建立个人专属语料库的方法。
技术实现思路
本专利技术提供了一种自动建立个人专属语料库的方法,以解决现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。本专利技术提供的自动建立个人专属语料库的方法,包括:采集通讯方的会话内容;获取会话内容中的会话对;根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。进一步地,获取会话内容中的会话对包括:根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;根据预设的类型判断规则,确定发起句和回复句的类型;根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对。进一步地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。进一步地,根据预设的类型判断规则,确定发起句的类型包括:判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。进一步地,根据预设的类型判断规则,确定回复句的类型包括:判断回复句是否为具有完整独立语义的语句,若是,则判断回复句是否由多个具有完整独立语义的单句组成,若是,则将回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断回复句是否包含具有完整独立语义的单句,若包含,则将回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句,若有,则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。进一步地,根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型,提取至少一个会话对包括:将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句;将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句;根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。进一步地,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值包括:预设场景标签库,场景标签库至少包括一个场景标签;在场景标签库中选择与会话对关联的场景标签;采集获得会话对与场景标签对应的场景标签值。进一步地,场景标签包括:会话内容主题,会话通讯双方的时间、地点、日期、会话意图、天气、季节、性别、职业、职务、心情、兴趣爱好、体感数据、健康状况、实时行为状态、星座、血型,会话通讯双方之间的关系、年龄差距、辈分差距,双方会话通讯的间隔时间、频率、时间跨度,会话内容的句型、句类、句式结构类型,以及总量标签中的一种或多种组合。本专利技术具有以下有益效果:本专利技术提供的自动建立个人专属语料库的方法,通过采集通讯方的会话内容,获取会话内容中的会话对,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值以及将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库,解决了现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。不仅大大减少了人工建立会话语料库的工作量,而且根据通讯方的会话内容提取的会话对和与之对应的场景标签值生成的个人专属语料库具有个人专属性和较强的针对性,体现了较高的个性化水平。除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照图,对本专利技术作进一步详细的说明。附图说明构建本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构建对本专利技术的不当限定。在附图中:图1是本专利技术优选实施例自动建立个人专属语料库的方法流程图;图2是本专利技术优选实施例针对的精简实施例一的自动建立个人专属语料库的方法的流程图;图3是本专利技术优选实施例针对的精简实施例二的自动建立个人专属语料库的方法的流程图。具体实施方式以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。参照图1,本专利技术的优选实施例提供了一种自动建立个人专属语料库的方法,包括:步骤S101,采集通讯方的会话内容;步骤S102,获取会话内容中的会话对;步骤S103,根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;步骤S104,将会话对、场景标签以及与场景标签对应的场景标本文档来自技高网...
一种自动建立个人专属语料库的方法

【技术保护点】
一种自动建立个人专属语料库的方法,其特征在于,包括:采集通讯方的会话内容;获取所述会话内容中的会话对;根据预设的场景标签,采集获得所述会话对与所述场景标签对应的场景标签值;将所述会话对、所述场景标签以及与所述场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。

【技术特征摘要】
1.一种自动建立个人专属语料库的方法,其特征在于,包括:采集通讯方的会话内容;获取所述会话内容中的会话对;根据预设的场景标签,采集获得所述会话对与所述场景标签对应的场景标签值;将所述会话对、所述场景标签以及与所述场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。2.根据权利要求1所述的自动建立个人专属语料库的方法,其特征在于,获取所述会话内容中的会话对包括:根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句;根据预设的类型判断规则,确定所述发起句和所述回复句的类型;根据所述发起句以及所述发起句与下一条发起句之间的回复句提取基础会话对;根据所述基础会话对、所述基础会话对中发起句和回复句的类型,提取至少一个会话对。3.根据权利要求2所述的自动建立个人专属语料库的方法,其特征在于,根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句包括:判断所述会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将所述会话句确定为发起句;若有,则判断所述会话句是否与所述通讯对方发送的上文无语义关联,若是,则将所述会话句确定为发起句,否则将所述会话句确定为回复句。4.根据权利要求3所述的自动建立个人专属语料库的方法,其特征在于,根据预设的类型判断规则,确定所述发起句的类型包括:判断所述发起句是否为具有完整独立语义的语句,若是,则判断所述发起句是否由多个具有完整独立语义的单句组成,若是,则将所述发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断所述发起句是否包含具有完整独立语义的单句,若包含,则将所述发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;搜索非标准单句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;搜索非标准复句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述发起句是否有自己的上文和下文连续会话句,若有,则进一步判断所述发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将所述发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。5.根据权利要求3所述的自动建...

【专利技术属性】
技术研发人员:陈包容
申请(专利权)人:长沙军鸽软件有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1