一种文本信息的预处理方法及装置制造方法及图纸

技术编号:17837650 阅读:35 留言:0更新日期:2018-05-03 19:19
本申请提供一种文本信息的预处理方法及装置,利用替换文件路径调取替换文件,通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换,可实现将文本信息通过一次预处理过程,就完成文本信息多处不同文本内容的替换,并且一个替换表达式即可完成一次替换,不仅避免操作重复,而且降低运算量,提高替换效率;同样,利用筛选文件路径调取筛选文件,调取筛选文件中的多个筛选表达式,可实现将文本信息通过一次预处理过程,完成文本信息多处不同文本内容的筛选,并且一个筛选表达式即可完成一次筛选,既避免操作重复,又降低运算量,提高筛选效率;并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可,提高预处理的灵活性。

A preprocessing method and device for text information

This application provides a preprocessing method and device for text information. The replacement file is retrieved by replacing the file path, and the text information is matched and replaced by replacing the multiple replacement expressions in the file. The text information can be completed by a preprocess of processing, and the text information is completed in many different texts. The replacement of this content, and a replacement expression can be completed once a replacement, not only to avoid duplication of operation, but also to reduce the amount of operation and to improve the efficiency of replacement; also, the filter file is selected by the filter path, and multiple screening expressions in the screening file can be extracted, and the text information can be pretreated by one time. It completes the selection of text information in many different text contents, and a screening expression can be used to complete a screening. It can not only avoid duplication, but also reduce the amount of operation, and improve the efficiency of screening. And the staff only need to enter the replacement or screen file path to replace or screen the file, and improve the flexibility of the preprocessing. Sex.

【技术实现步骤摘要】
一种文本信息的预处理方法及装置
本申请涉及数据挖掘领域,尤其涉及一种文本信息的预处理方法及装置。
技术介绍
数据挖掘是从大量的、不完全的、有噪声的、模糊的以及随机的实际应用数据中提取隐含在其中的人们预先未知但又是有潜在价值的信息和知识的过程。数据挖掘流程通常包括:文本信息加载、文本信息预处理、数据挖掘算法实现和结果展示等主要步骤,其中,文本信息预处理包含特定文本信息替换和特定文本信息筛选,特定文本信息替换为将文本信息中特定的语义相同,却表达方式不同的文本内容,用相同的特定文本内容进行替换,以增加数据挖掘算法的准确性;特定文本信息筛选为对文本信息中特定的语义相同的近似文本内容进行去除或保留,以提高数据挖掘算法的运算速率。随着互联网技术的快速发展,网络信息呈爆炸式增长,这给基于海量信息的数据挖掘提供良好的数据基础。但是,随着博客、微博等各种形式的社交网络媒体或平台的兴起,文本内容包括的文字逐渐趋于口语化、浓缩化,这无疑提高了文本信息预处理的难度。例如,工作人员想做关于网民对可乐歌词瓶在互联网的口碑的数据挖掘,以了解可乐歌词瓶的市场占有率,为市场营销人员制定营销策略提供数据支持。然而工作人员所搜集的文本信息中,不仅只有“可口可乐歌词瓶”代表可口可乐歌词瓶,类似的“cola歌词瓶”“cocacola歌词瓶”等词语同样代表着可口可乐;并且网民对其的评价词语也不尽相同。如文本内容为“我今天买可乐,发现一个歌词与瓶子组合的活动,还挺不错的”,在文本信息预处理的过程中,根据实际数据挖掘的需求,有时需要将“我今天买可乐,发现一个歌词与瓶子组合的活动”替换为标准词语“可口可乐歌词瓶”,以及将“还挺不错的”替换为“好评”。同样,根据实际的挖掘需求,有时需要将上述文本信息中“可乐”、“歌词”、“瓶子”和“挺不错”进行筛选。但是,现有的文本数据预处理方法,在当需要将文本信息中需进行多个不同文本内容的替换,或对多个不同文本内容进行筛选时,则要针对多个文本内容进行多次替换/筛选的步骤,由于需要进行多次替换/筛选操作,因此,无法实现将多个不同文本内容同时替换/筛选,从而增加文本信息预处理的繁琐程度,并且增加运算量,降低文本信息预处理的效率。
技术实现思路
本申请提供了一种文本信息的预处理方法及装置,以解决现有的文本数据预处理方法无法实现将多个不同文本内容同时替换/筛选,从而增加文本信息预处理的繁琐程度,并且增加运算量,降低文本信息预处理的效率的问题。第一方面,本申请提供了一种文本信息的预处理方法包括:获取待处理文本信息和所述待处理文本信息对应的替换文件路径;根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配粒度为全信息匹配或拆句匹配;根据第一替换表达式的匹配粒度和有效文本信息,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配;如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息;将所述替换文件中的另一替换表达式作为第一替换表达式,重复执行所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配的步骤,直至遍历所述替换文件中所有的替换表达式为止;其中,生成所述通过业务词典获得的替换表达式的步骤如下:获取所述待处理文本信息对应的业务词典;利用所述业务词典中的每个词语,生成对应的正则表达式;根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。第二方面,本申请还提供了一种文本信息的预处理方法包括:步骤S1:获取待处理文本信息和所述待处理文本信息对应的筛选文件路径;步骤S2:根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配表达式类型、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选;步骤S3:根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式;如果匹配失败,则执行步骤S8;如果匹配成功,则执行步骤S4-S7;步骤S4:根据所述第一筛选表达式的匹配类型和匹配文本信息,确定有效文本信息;步骤S5:根据所述第一筛选表达式的匹配粒度和有效文本信息,确定目标文本信息;步骤S6:根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选,得到筛选信息;步骤S7:判断所述筛选信息的长度是否为零,如果所述筛选信息的长度为零,则结束筛选;如果所述筛选信息的长度大于零,则执行步骤S8;步骤S8:将所述筛选文件中的另一筛选表达式作为第一筛选表达式,转至步骤S3,直至遍历所述替换文件中所有的替换表达式为止。第三方面,本申请还提供了一种文本信息的预处理装置包括:获取模块,用于获取待处理文本信息和所述待处理文本信息对应的替换文件路径;调取模块,用于根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配粒度为全信息匹配或拆句匹配;匹配模块,用于根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一替换表达式为所述替换文件中的任意一个替换表达式;判断模块,用于如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息;循环模块,用于将所述替换文件中的另一替换表达式作为第一替换表达式,转至匹配模块,直至遍历所述替换文件中所有的替换表达式为止;其中,生成所述通过业务词典获得的替换表达式的步骤如下:获取所述待处理文本信息对应的业务词典;利用所述业务词典中的每个词语,生成对应的正则表达式;根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。第四方面,本申请还提供了一种文本信息的预处理装置包括:获取模块,用于获取待处理文本信息和所述待处理文本信息对应的筛选文件路径;调取模块,用于根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选;匹配模块,用于根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式;如果匹配失败,则转至循环模块;如果匹配成功,则转至确定模块;确定模块,用于根据所述第本文档来自技高网
...
一种文本信息的预处理方法及装置

【技术保护点】
一种文本信息的预处理方法,其特征在于,所述方法包括:获取待处理文本信息和所述待处理文本信息对应的替换文件路径;根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配粒度为全信息匹配或拆句匹配;根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配;如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息,所述第一替换表达式为所述替换文件中的任意一个替换表达式;将所述替换文件中的另一替换表达式作为第一替换表达式,重复执行所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配的步骤,直至遍历所述替换文件中所有的替换表达式为止;其中,生成所述通过业务词典获得的替换表达式的步骤如下:获取所述待处理文本信息对应的业务词典;利用所述业务词典中的每个词语,生成对应的正则表达式;根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。...

【技术特征摘要】
1.一种文本信息的预处理方法,其特征在于,所述方法包括:获取待处理文本信息和所述待处理文本信息对应的替换文件路径;根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配粒度为全信息匹配或拆句匹配;根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配;如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息,所述第一替换表达式为所述替换文件中的任意一个替换表达式;将所述替换文件中的另一替换表达式作为第一替换表达式,重复执行所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配的步骤,直至遍历所述替换文件中所有的替换表达式为止;其中,生成所述通过业务词典获得的替换表达式的步骤如下:获取所述待处理文本信息对应的业务词典;利用所述业务词典中的每个词语,生成对应的正则表达式;根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。2.如权利要求1所述的方法,其特征在于,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为拆句匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时,所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括:将所述待处理文本信息进行断句处理,得到子句集;将所述正则表达与所述子句集内的每个句子逐一进行模式匹配。3.如权利要求1所述的方法,其特征在于,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为拆句匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时,所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括:将所述待处理文本信息进行断句处理,得到子句集;将所述关键信息与所述子句集内的每个句子逐一进行字符匹配。4.如权利要求1所述的方法,其特征在于,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为全信息匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时,所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括:将所述正则表达式与所述待处理文本信息进行模式匹配。5.如权利要求1所述的方法,其特征在于,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为全信息匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时,所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括:将所述关键信息与所述待处理文本信息进行字符匹配。6.一种文本信息的预处理方法,其特征在于,所述方法包括:步骤S1:获取待处理文本信息和所述待处理文本信息对应的筛选文件路径;步骤S2:根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选;步骤S3:根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式;如果匹配...

【专利技术属性】
技术研发人员:李德彦晋耀红席丽娜
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1