目的在于提供文章解析系统,该文章解析系统的成本低并且能够检测表达特征或构造特征的文章。本发明专利技术的文章解析系统(100)构成为具有:文章取得部(110),其取得文章数据;特征提取部(120),其将由文章取得部(110)取得的文章数据转换为时间序列信号,从转换后的时间序列信号提取特征;特征存储部(130),其存储由特征提取部(120)提取出的特征;以及特异文章检测部(140),其基于特征存储部(130)的特征来检测特异文章。特异文章。特异文章。
【技术实现步骤摘要】
【国外来华专利技术】文章解析系统及使用其的消息交换的特征评价系统
[0001]本专利技术涉及文章解析系统及使用其的消息交换的特征评价系统。
技术介绍
[0002]将使计算机理解人在信息传递中使用的自然语言的尝试称为自然语言理解。使用自然语言理解的信息处理系统广泛用于文章的自动翻译或声音应答系统、机器人技术、安全等领域。由于互联网技术的进步,多国间的文化和商务的交流变得容易,必须实时地处理各种语言或被混用的多国语。作为处理多国语的例子,在作为在互联网上的消息交换的一种类型的电子邮件系统中,如下的服务器或终端装置已经实用化:在用于检测垃圾邮件或病毒等非法消息的过滤功能中搭载了与预先准备的基于多种语言的定义文件进行高效匹配的匹配系统。例如,专利文献1公开了如下技术:将记载了字符串等的样本数据信号化为n值化(n为2以上的自然数)的样本数据,计算n值化后的样本数据与n值化后的输入数据之间的相似度,基于计算出的相似度来识别输入数据是否是垃圾邮件。
[0003]现有技术文献
[0004]专利文献
[0005]专利文献1:日本专利第6267830号公报
技术实现思路
[0006]专利技术要解决的问题
[0007]伴随互联网技术的发展,多国间的文化和商务的交流变得活跃,要求信息处理系统能够应对多种语言的处理。并且,在作为互联网上的消息交换系统的一种类型的电子邮件系统中,需要除了处理多种语言以外还实时地处理大量的业务的性能。但是,自然语言理解需要并非仅是简单的匹配表的庞大的数据、以及基于句法和语义的复杂解析。
[0008]对利用自然语言写的消息进行处理的目的不仅在于内容的理解,还在于取得消息制作者的特征。消息制作者的特征也灵活用于信息安全的领域。利用消息的计算机装置或电子设备的动作的阻碍、信息的诈取、由于对利用者的欺诈行为等导致的信息泄漏成为大问题,基于消息解析来防止信息泄漏的需要变高,此外,还要求高速的处理。基于消息的信息流出大致存在2种。一种是存在恶意的用户的故意的流出。例如,非法的合作者利用消息工具等将信息发送到外部,或者使计算机感染病毒等非法程序,使外部的计算机将信息泄漏到外部。另一种是用户的误发送。例如,向未知的目的地发送消息,或者使用通常不处理的话题或用语,或者附加了通常不会附加的文件。作为这些情况中共同的特征,举出伴有与通常不同的行动。因此,通过高速地检测在消息中存在的特异性,并在发送前进行注意,从而能够防止消息交换导致的信息流出。
[0009]本专利技术鉴于上述的实际情况而将目的设为:提供文章解析系统,能够以比以往更低的成本高速地检测具有特异的表达特征和构造特征的文章。
[0010]并且,本专利技术的目的在于提供对消息交换中的本文的特异性进行检测的消息的特
征评价系统。
[0011]用于解决问题的手段
[0012]本专利技术实现能够通过单一的算法对多种语言进行处理的系统。作为本专利技术的文章解析系统能够应用于口语或文章所具有的特征或例外的检测。根据本专利技术,包括发现由于措辞的错误或不规范性而引起的主旨的不同、误解、不正当、或它们的迹象在内,能够检测平凡思想中隐藏的非凡的思想、以及多数中的少数的意思。提取口语或文章所具有的表达特征和构造特征,比较并检测与它们不同的特征的口语或文章,或者使用与其相反的方法,从而使本专利技术的文章解析系统用于各个方面。
[0013]作为能够通过比较口语或文章所具有的表达特征或构造特征而检测到发生的具体例子,考虑电子邮件系统的信息泄漏。识别垃圾邮件和病毒邮件等非法消息的方法很多,检测消息本文的词素解析的结果、URL、或包含发送地址在内的报头信息的特征,比较与预先定义的非法消息的判断基准(非法用语、地址、URL、通过路径、发送量等)或通常在当事者之间来往的邮件的特征之间的不同点,从而进行识别。URL或报头具有形式上的信息,因此,判断基准的定义容易与消息本文进行比较,但是,另一方面,这些特征持续被变更,难以实现高精度的过滤。因此,要求与URL、报头信息一起还进行基于消息本文的解析的检测,但是,非法消息内包含的语言跨越多个国家的语言,为了将词素解析或分词处理与多语言对应,需要与各语言对应的词典。由于语言的多样性,可能导致扩展性降低、或要求实时时间处理的系统的处理速度显著降低。为了避免这些问题,系统装置会庞大且成本增加。因此,能够期待利用低成本且具有对多种语言的扩展性的本专利技术的文章解析手法作为解决方案。
[0014]本专利技术的对文章进行解析的文章解析系统具有:取得单元,其取得文章数据;转换单元,其将所取得的文章数据的字符数值化,从而将文章数据转换为时间序列信号;特征提取单元,其从转换后的时间序列信号提取特征信息,并存储提取出的特征信息;以及判定单元,其使用所述特征信息来判定新取得的文章数据的同一性。
[0015]在某个实施方式中,文章解析系统还具有检测单元,该检测单元基于所述判定单元的判定结果来检测与所述特征信息不同的特异文章。在某个实施方式中,所述转换单元基于预先准备的转换表将字符转换为数值数据。在某个实施方式中,所述转换单元对所述时间序列信号进行归一化,使其收敛于最小值0与最大值1的范围内。在某个实施方式中,所述转换单元使超过所设定的阈值的所述时间序列信号的值衰减,对衰减后的时间序列信号进行归一化。在某个实施方式中,所述特征提取单元从通过通常的表达特征或构造特征来记载的文章数据的归一化后的时间序列信号中提取特征,对特征进行学习,以使用提取出的特征得到对所述时间序列信号的输入波形进行再现的输出波形。在某个实施方式中,所述特征提取单元通过自动编码器对所述特征信息进行编码。在某个实施方式中,所述特征提取单元通过神经网络对所述特征信息进行学习。
[0016]本专利技术的消息交换的特征评价系统包含上述记载的文章解析系统,所述检测单元基于所述判定单元的判定结果来检测消息的特异性。在某个实施方式中,消息交换的特征评价系统包含发送控制单元,在检测到发送邮件的特异性的情况下,该发送控制单元停止该发送邮件的发送。在某个实施方式中,消息交换的特征评价系统还具有通知单元,在通过所述发送控制单元停止了送邮件的发送时,该通知单元通知发送邮件的发送停止。
[0017]本专利技术的由计算机终端执行的文章解析程序具有以下步骤:取得文章数据;将所
取得的文章数据的字符数值化,从而将文章数据转换为时间序列信号;从转换后的时间序列信号提取特征信息,并存储提取出的特征信息;以及使用所述特征信息来判定新取得的文章数据的同一性。在某个实施方式中,在判定所述同一性的步骤中,识别通过与所述特征信息不同的特异的表达特征或构造特征来记载的发送邮件。
[0018]本专利技术的计算机终端中的文章解析方法具有以下步骤:取得文章数据;将所取得的文章数据的字符数值化,从而将文章数据转换为时间序列信号;从转换后的时间序列信号提取特征信息,并存储提取出的特征信息;以及使用所述特征信息来判定新取得的文章数据的同一性。在某个实施方式中,在判定所述同一性的步骤中,识别通过与所述特征信息不同的表达特征或构造特征来记载的本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种文章解析系统,其对文章进行解析,所述文章解析系统具有:取得单元,其取得文章数据;转换单元,其将所取得的文章数据的字符数值化,从而将文章数据转换为时间序列信号;特征提取单元,其从转换后的时间序列信号提取特征信息,并存储提取出的特征信息;以及判定单元,其使用所述特征信息来判定新取得的文章数据的同一性。2.根据权利要求1所述的文章解析系统,其中,文章解析系统还具有检测单元,该检测单元基于所述判定单元的判定结果来检测与所述特征信息不同的特异文章。3.根据权利要求1所述的文章解析系统,其中,所述转换单元基于预先准备的转换表将字符转换为数值数据。4.根据权利要求1或3所述的文章解析系统,其中,所述转换单元对所述时间序列信号进行归一化,使其收敛于最小值0与最大值1的范围内。5.根据权利要求1或4所述的文章解析系统,其中,所述转换单元使超过所设定的阈值的所述时间序列信号的值衰减,对衰减后的时间序列信号进行归一化。6.根据权利要求1或4所述的文章解析系统,其中,所述特征提取单元从通过通常的表达特征或构造特征来记载的文章数据的归一化后的时间序列信号中提取特征,对特征进行学习,以使用提取出的特征得到对所述时间序列信号的输入波形进行再现的输出波形。7.根据权利要求6所述的文章解析系统,其中,所述特征提取单元通过自动编码器对所述特征信息进行编码。8.根据权利要求7所述的文章解析系统,其中,所述特征提取单元通过神经网络对所述特征信息进行学习。9.一种消息交换的特征评价系统,其包含权...
【专利技术属性】
技术研发人员:冈响,小岛美津夫,中桥彬,
申请(专利权)人:艾梅崔克斯持株公司株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。