一种面向社交媒体的在线争辩生成方法、系统及存储介质技术方案

技术编号:24683954 阅读:44 留言:0更新日期:2020-06-27 08:07
本发明专利技术提供了一种面向社交媒体的在线争辩生成方法、系统及存储介质,该在线争辩生成方法包括:步骤1:收集用户在社交媒体上针对热点事件的在线争辩文本数据,对在线争辩文本数据进行人工标注;步骤2:收集与在线争辩文本数据相关的结构化知识与文本知识;步骤3:结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;步骤4:在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。本发明专利技术的有益效果是:本发明专利技术结合知识图谱信息,可以充分利用文本信息中的尝试知识,可以生成更流畅、更具有争辩性的文本。

An online dispute generation method, system and storage medium for social media

【技术实现步骤摘要】
一种面向社交媒体的在线争辩生成方法、系统及存储介质
本专利技术涉及互联网
,尤其涉及一种面向社交媒体的在线争辩生成方法、系统及存储介质。
技术介绍
随着Web2.0技术和互联网特别是移动互联网技术的快速发展,人类使用互联网的方式正在转向信息获取与基于用户的信息创造、交流和共享并重发展。从电子公告牌系统(BBS)、即时通讯(IM)、博客(Blog)开始,Twitter、Facebook、Flickr、LinkedIn、微博等多种多样的社交网络服务不断涌现,推动大批互联网用户自发地在产生及贡献内容。社会化媒体中的文本往往带有大量情感信息。社交媒体中的在线争辩作为用户表达情感倾向性的重要平台,同时也是改变用户针对某一事件立场倾向性的绝佳机会。通过充分利用在线争辩,我们可以使用基于自然语言生成技术自动地改变某些用户针对事件的看法。
技术实现思路
本专利技术提供了一种面向社交媒体的在线争辩生成方法,包括如下步骤:步骤1:收集用户在社交媒体上针对热点事件的在线争辩文本数据,对在线争辩文本数据进行人工标注;步骤2:收集与在线争辩文本数据相关的结构化知识与文本知识;步骤3:结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;步骤4:在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。作为本专利技术的进一步改进,所述步骤1包括:步骤1.1:使用爬虫框架在社交媒体上爬取给定热点事件相关的在线争辩文本数据,在线争辩文本数据以多轮对话形式进行储存;步骤1.2:对爬取的在线争辩文本数据进行预处理,将在线争辩文本数据中与热点事件无关的文本片段删除,同时对文本进行分词及词性标注;步骤1.3:对在线争辩文本数据进行人工标注。作为本专利技术的进一步改进,在所述步骤1.3中,人工标注包括:将在线争辩文本数据中每一条文本的观点进行标注;将在线争辩文本数据中潜在可能改变其他用户观点的文本进行打分。作为本专利技术的进一步改进,所述步骤2包括:步骤2.1:通过自动实体链接工具对在线争辩文本数据中提到的实体进行抽取;步骤2.2:在结构化知识库中通过广度优先算法搜集与在线争辩文本数据提到实体相关的实体信息。作为本专利技术的进一步改进,所述步骤3包括:步骤3.1:将抽取到的知识化知识节点与关系通过TransE算法转化为向量形式;步骤3.2:将对应的TransE向量拼接在对应的词语向量上;步骤3.3:使用序列到序列模型在步骤1得到的在线争辩文本数据上训练至收敛,训练过程中输入为词语向量与结构化知识向量的拼接。本专利技术还提供了一种面向社交媒体的在线争辩生成系统,包括:在线争辩数据收集及标注模块:用于收集用户在社交媒体上针对热点事件的在线争辩数据,对在线争辩数据进行人工标注;知识收集模块:用于收集与在线争辩文本数据相关的结构化知识与文本知识;自然语言生成模型训练模块:用于结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;争辩文本生成模块:用于在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。作为本专利技术的进一步改进,所述在线争辩数据收集及标注模块包括:数据采集模块:用于使用爬虫框架在社交媒体上爬取给定热点事件相关的在线争辩文本数据,在线争辩文本数据以多轮对话形式进行储存;预处理模块:对爬取的在线争辩文本数据进行预处理,将在线争辩文本数据中与热点事件无关的文本片段删除,同时对文本进行分词及词性标注;标注模块:用于对在线争辩文本数据进行人工标注,人工标注包括:将在线争辩文本数据中每一条文本的观点进行标注;将在线争辩文本数据中潜在可能改变其他用户观点的文本进行打分。作为本专利技术的进一步改进,所述知识收集模块包括:数据抽取模块:用于通过自动实体链接工具对在线争辩文本数据中提到的实体进行抽取;搜集模块:用于在结构化知识库中通过广度优先算法搜集与在线争辩文本数据提到实体相关的实体信息。作为本专利技术的进一步改进,所述自然语言生成模型训练模块包括:转化模块:用于将抽取到的知识化知识节点与关系通过TransE算法转化为向量形式;拼接模块:用于将对应的TransE向量拼接在对应的词语向量上;训练模块:用于使用序列到序列模型在所述在线争辩数据收集及标注模块得到的在线争辩文本数据上训练至收敛,训练过程中输入为词语向量与结构化知识向量的拼接。本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本专利技术所述的在线争辩生成方法的步骤。本专利技术的有益效果是:本专利技术结合知识图谱信息,可以充分利用文本信息中的尝试知识,可以生成更流畅、更具有争辩性的文本。附图说明图1是本专利技术的系统原理框图。具体实施方式本专利技术公开了一种面向社交媒体的在线争辩生成方法,包括如下步骤:步骤1:收集用户在社交媒体上针对热点事件的在线争辩文本数据,对在线争辩文本数据进行人工标注;步骤2:收集与在线争辩文本数据相关的结构化知识(知识图谱)与文本知识(维基百科);步骤3:结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;步骤4:在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。所述步骤1包括:步骤1.1:使用爬虫框架在社交媒体上爬取给定热点事件相关的在线争辩文本数据,在线争辩文本数据以多轮对话形式进行储存;步骤1.2:对爬取的在线争辩文本数据进行预处理,将在线争辩文本数据中与热点事件无关的文本片段删除,同时对文本进行分词及词性标注;步骤1.3:对在线争辩文本数据进行人工标注。在所述步骤1.3中,人工标注包括:将在线争辩文本数据中每一条文本的观点进行标注,立场可分为:+1即此文本支持针对某一事件的观点,-1:即此文本不支持此观点,0:此文本未表示针对此观点的态度。将在线争辩文本数据中潜在可能改变其他用户观点的文本进行打分,打分范围为-10至+10,分数越高表明文本片段越有可能改变其他用户的观点。所述步骤2包括:步骤2.1:通过自动实体链接工具对在线争辩文本数据中提到的实体进行抽取;步骤2.2:在结构化知识库(例如但不限于Wikidata,Yago知识图谱)中通过广度优先算法搜集与在线争辩文本数据提到实体相关的实体信息。所述步骤3包括:步骤3.1:将抽取到的知识化知识节点与关系通过TransE算法转化为向量形式;步骤3.2:将对应的TransE向量拼接在对应的词语向量上;步骤3.3:使用序列到序列模型(seq2seq)在步骤1得到的在线争辩文本数据上训练至收敛,训练本文档来自技高网...

【技术保护点】
1.一种面向社交媒体的在线争辩生成方法,其特征在于,包括如下步骤:/n步骤1:收集用户在社交媒体上针对热点事件的在线争辩文本数据,对在线争辩文本数据进行人工标注;/n步骤2:收集与在线争辩文本数据相关的结构化知识与文本知识;/n步骤3:结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;/n步骤4:在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。/n

【技术特征摘要】
1.一种面向社交媒体的在线争辩生成方法,其特征在于,包括如下步骤:
步骤1:收集用户在社交媒体上针对热点事件的在线争辩文本数据,对在线争辩文本数据进行人工标注;
步骤2:收集与在线争辩文本数据相关的结构化知识与文本知识;
步骤3:结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;
步骤4:在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。


2.根据权利要求1所述的在线争辩生成方法,其特征在于,所述步骤1包括:
步骤1.1:使用爬虫框架在社交媒体上爬取给定热点事件相关的在线争辩文本数据,在线争辩文本数据以多轮对话形式进行储存;
步骤1.2:对爬取的在线争辩文本数据进行预处理,将在线争辩文本数据中与热点事件无关的文本片段删除,同时对文本进行分词及词性标注;
步骤1.3:对在线争辩文本数据进行人工标注。


3.根据权利要求2所述的在线争辩生成方法,其特征在于,在所述步骤1.3中,人工标注包括:
将在线争辩文本数据中每一条文本的观点进行标注;
将在线争辩文本数据中潜在可能改变其他用户观点的文本进行打分。


4.根据权利要求1所述的在线争辩生成方法,其特征在于,所述步骤2包括:
步骤2.1:通过自动实体链接工具对在线争辩文本数据中提到的实体进行抽取;
步骤2.2:在结构化知识库中通过广度优先算法搜集与在线争辩文本数据提到实体相关的实体信息。


5.根据权利要求1所述的在线争辩生成方法,其特征在于,所述步骤3包括:
步骤3.1:将抽取到的知识化知识节点与关系通过TransE算法转化为向量形式;
步骤3.2:将对应的TransE向量拼接在对应的词语向量上;
步骤3.3:使用序列到序列模型在步骤1得到的在线争辩文本数据上训练至收敛,训练过程中输入为词语向量与结构化知识向量的拼接。


6.一种面向社交媒体的在线争辩生成系统,其特征在于,包括:
在线争辩数据收集及标注模块:用于收集用...

【专利技术属性】
技术研发人员:徐睿峰杜嘉晨杨敏梁斌范创陆勤
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1