识别整体符号串的方法和装置制造方法及图纸

技术编号:11572578 阅读:84 留言:0更新日期:2015-06-10 03:18
本发明专利技术公开了一种识别整体符号串的方法和装置,属于自然语言处理研究领域。所述方法包括:提取文本信息中包含的符号串;从所述符号串中获取具有对称性的符号对;根据所述获取的符号对计算所述符号串的对称度;如果所述符号串的对称度满足预设条件,则确定所述符号串为整体符号串。所述装置包括:提取模块,获取模块,计算模块和确定模块。由于本发明专利技术能够计算符号串的对称度,根据符号串的对称度确定符号串是否是整体符号串,不需要依赖表情符号字典,即使不在表情符号字典内的符号串,也能够确定出该符号串是否是整体符号串,从而解决了表情符号等符号串信息识别精度低下、容易造成文本信息缺失等问题,达到了提高文本信息处理系统的性能的效果。

【技术实现步骤摘要】

本专利技术涉及自然语言处理研究领域,特别涉及一种识别整体符号串的方法和装 置。
技术介绍
当前,随着计算机网络和通信技术的发展,移动终端越来越普及,电子邮件、短信、 QQ、微信、微博等各种社交媒体越来越多渗透到人们的日常工作和生活。在人们的日常交流 活动中,短文本大量出现,且文字中夹杂各种各样有多重符号串组成的表情符号。 表情符号的大量出现丰富人们日常情感交流活动的同时,给短文本的信息处理造 成一些技术难题。比如,当利用短文本进行诸如网络舆情分析等汉语文本信息处理时,需要 先利用表情符号词典来识别出短文本中的哪些符号串是个整体的表情符号,然后再对短文 本进行信息处理。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题: 由于表情符号的多样性,难以构建一个非常完整的表情符号字典,不在表情符号 字典中的表情符号常常被分割成为单个的字,被当作垃圾信息过滤掉,造成信息缺失,影响 文本信息处理的质量和精度。
技术实现思路
为了解决现有技术中的问题,本专利技术实施例提供了一种识别整体符号串的方法和 装置。所述技术方案如下: -方面,本专利技术提供了一种识别整体符号串的方法,所述方法包括: 提取文本信息中包含的符号串; 从所述符号串中获取具有对称性的符号对; 根据所述获取的符号对计算所述符号串的对称度; 如果所述符号串的对称度满足预设条件,则确定所述符号串为整体符号串。 进一步地,所述从所述符号串中获取具有对称性的符号对,包括: 确定所述符号串的中心位置; 根据所述中心位置,从所述符号串中获取位置对称的两个字符; 如果所述两个字符具有对称性,则将所述两个字符组成具有对称性的符号对。 进一步地,所述将所述两个字符确定具有对称性的符号对之前,还包括: 确定所述两个字符是否相同或形状反向,如果所述两个字符相同或形状反向,则 判断出所述两个字符具有对称性。 进一步地,所述提取文本信息中包含的符号串之后,还包括: 获取所述符号串中具有对称性的子符号串; 从所述子符号串中获取具有对称性的符号对; 根据所述获取的符号对计算所述子符号串的对称度; 如果所述子符号串的对称度满足预设条件,则确定所述子符号串为整体符号串。 进一步地,所述获取所述符号串中具有对称性的子符号串,包括: 从所述符号串中获取任意相同或形状反向的两个字符或两个字符串; 从所述符号串中获取由所述两个字符分别作为开始字符和结束字符的子字符串, 或者获取由所述两个字符串分别作为开始字符串和结束字符串的子符号串; 将所述获取的子符号串确定为具有对称性的子符号串。 进一步地,所述提取文本信息中包含的符号串,包括: 对文本信息进行分词,得到所述文本信息包括的分词,所述文本信息包括的各分 词的位置顺序与所述各分词在所述文本信息中的位置顺序一致; 根据预设的正则表达式,从所述文本信息包括的分词中提取与所述正则表达式匹 配的符号串。 进一步地,所述确定所述符号串为整体符号串之后,还包括: 在所述文本信息中对所述整体符号串的两个边界字符和位于所述两个边界字符 之间的中间字符进行标注。 另一方面,本专利技术提供了一种识别整体符号串的装置,所述装置包括: 提取模块,用于提取文本信息中包含的符号串; 获取模块,用于从所述符号串中获取具有对称性的符号对; 计算模块,用于根据所述获取的符号对计算所述符号串的对称度; 确定模块,用于如果所述符号串的对称度满足预设条件,则确定所述符号串为整 体符号串。 进一步地,所述获取模块包括: 第一确定单兀,用于确定所述符号串的中心位置; 第一获取单元,用于根据所述中心位置,从所述符号串中获取位置对称的两个字 符; 组成单元,用于如果所述两个字符具有对称性,则将所述两个字符组成具有对称 性的符号对。 进一步地,所述提取模块,还用于获取所述符号串中具有对称性的子符号串; 所述获取模块,还用于从所述子符号串中获取具有对称性的符号对; 所述计算模块,还用于根据所述获取的符号对计算所述子符号串的对称度; 所述确定模块,还用于如果所述子符号串的对称度满足预设条件,则确定所述子 符号串为整体符号串。 本专利技术实施例提供的技术方案带来的有益效果是: 提取文本信息中包含的符号串;从该符号串中获取具有对称性的符号对;根据获 取的符号对计算该符号串的对称度;如果该符号串的对称度满足预设条件,则确定该符号 串为整体符号串。由于本专利技术能够计算符号串的对称度,根据符号串的对称度确定符号串 是否是整体符号串,不需要依赖表情符号字典,即使不在表情符号字典内的符号串,本专利技术 也能够确定出该符号串是否是整体符号串,从而解决了表情符号等符号串信息识别精度低 下、容易造成文本信息缺失等问题,达到了提高文本信息处理系统的性能的效果。【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。 图1是本专利技术实施例1提供的识别整体符号串的方法流程图; 图2是本专利技术实施例2提供的识别整体符号串的方法流程图; 图3是本专利技术实施例3提供的识别整体符号串的装置结构示意图。【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方 式作进一步地详细描述。 实施例1 本专利技术实施例提供了一种识别整体符号串的方法,该方法的执行主体为终端,终 端可以为移动终端、固定终端或者服务器等;识别整体符号串的方法可以通过软件、硬件或 者两者的结合实现,该识别整体符号串的方法可以为终端的部分或者全部。 参见图1,其中,该方法包括: 步骤101 :提取文本信息中包含的符号串; 步骤102 :从该符号串中获取具有对称性的符号对; 步骤103 :根据获取的符号对计算该符号串的对称度; 步骤104 :如果该符号串的对称度满足预设条件,则确定该符号串为整体符号串。 进一步地,从该符号串中获取具有对称性的符号对,包括: 确定该符号串的中心位置; 根据中心位置,从该符号串中获取位置对称的两个字符; 如果两个字符具有对称性,则将该两个字符组成具有对称性的符号对。 进一步地,将该两个字符确定具有对称性的符号对之前,还包括: 确定该两个字符是否相同或形状反向,如果该两个字符相同或形状反向,则判断 出该两个字符具有对称性。 进一步地,提取文本信息中包含的符号串之后,还包括: 获取该符号串中具有对称性的子符号串; 从该子符号串中获取具有对称性的符号对; 根据获取的符号对计算该子符号串的对称度; 如果该子符号串的对称度满足预设条件,则确定该子符号串为整体符号串。 进一步地,获取该符号串中具有对称性的子符号串,包括: 从该符号串中获取任意相同或形状反向的两个字符或两个字符串; 从该符号串中获取由两个字符分别作为开始字符和结束字符的子字符串,或者获 取由该两个字符串分别作为开始字符串和结束字符串的子符号串; 将获取的子符号串确定为具有对称性的子符号串。 进一步地,提取文本信息中包含的符号串,包括: 对文本信息进行分词,得到文本信息包括的分词,文本信息包括的各分当前第1页1 2 本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/CN104699662.html" title="识别整体符号串的方法和装置原文来自X技术">识别整体符号串的方法和装置</a>

【技术保护点】
一种识别整体符号串的方法,其特征在于,所述方法包括:提取文本信息中包含的符号串;从所述符号串中获取具有对称性的符号对;根据所述获取的符号对计算所述符号串的对称度;如果所述符号串的对称度满足预设条件,则确定所述符号串为整体符号串。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐金安张子兴呼啸马文嘉黄天立闫麟阁徐乾舜陈钰枫
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1