解析程序、解析方法以及解析装置制造方法及图纸

技术编号:23154472 阅读:49 留言:0更新日期:2020-01-18 15:30
解析装置(100)基于用于词素解析的词典生成索引,上述索引是与登记于词典的各个词素有关的索引,并且在上述索引中设定有能够对登记于词典的各个词素判别前端和末尾的标志。解析装置(100)使用索引,来从所输入的字符数据中提取多个能够拆分的单词。

Analysis program, method and device

【技术实现步骤摘要】
【国外来华专利技术】解析程序、解析方法以及解析装置
本专利技术涉及解析程序等。
技术介绍
以往,与以空格等分隔符进行分隔的字母表记的字符不同,对于CJK(中文、日文、韩文)字符,要在识别词素的分隔之后,进行各种处理。例如,作为根据对象字符数据解析词素的分隔并输出能够拆分的单词的字符串的现有技术,有Mecab、Chasen等词素词典和Trie树(前缀树)及DoubleArray(双数组)。作为利用词素的分隔的解析结果的技术,有将对象字符数据矢量化的Word2Vec等技术。专利文献1:日本特开2010-146273号公报专利文献2:日本特开平10-222511号公报专利文献3:日本特开2014-106707号公报专利文献4:国际公开第2009/063925号然而,在上述的现有技术中,存在无法高速并且抑制文件尺寸地进行词素的分隔的解析的问题。近年来,在Word2Vec等解析等、利用词素解析的结果的领域中,词素的分隔位置的精度的重要性日益增加。为了应对该需求,在现有技术中,增加词素词典的登记词,提取多个能够拆分的单词候选。但是,在增加了词素词典的登记词的情况下,Trie树和DoubleArray的尺寸急剧增大,检索以及判定所需的时间变长。例如,在判定CJK字符串的“アメリカ先住民族”这样的词素的分隔的情况下,不是简单地仅包含“アメリカ先住民”这样的判定,也要一并判定不进行像“アメリカ先住民”、“族”这样的分隔方式。另外,在Word2Vec将对象字符数据矢量化的情况下,以如下情况为前提:对象字符数据的词素解析的结果是用有意义的字符串的最小单位进行分隔的。因此,在作为Word2Vec的预处理而对对象字符串数据进行分隔的情况下,有利用以往的词素解析进行的划分不是以有意义的字符串的最小单位来分隔,而不适合Word2Vec的目的的情况。例如,专有名词“三菱東京UFJ銀行金沢文庫支店”、新词“妖怪ウォッチ”其本身是有意义的字符串的对象单位,但在以往的词素解析中,不进行考虑到这样的点的处理。例如,若通过Mecab将对象字符数据“…三菱東京UFJ銀行金沢文庫支店…”拆分为词素,则将有意义的CJK字符串“三菱東京UFJ銀行金沢文庫支店”拆分为“三菱”、“東京”、“UFJ”、“銀行”、“金沢”、“文库”、“支店”。若通过Mecab将对象字符数据“…妖怪ウォッチ…”拆分为词素,则将有意义的CJK字符串“妖怪ウォッチ”拆分为“妖怪”、“ウォッチ”。另外,在词素解析中,也考虑将专有名词作为未知词来输出,但由于也存在基于登记单词而被拆分、或有用的信息被除去的情况,所以作为用于Word2Vec进行利用的词素解析的结果变得不充分。
技术实现思路
在一个方面,本专利技术的目的在于提供一种能够高速并且抑制文件尺寸地进行词素的分隔的解析的解析程序、解析方法以及解析装置。在第一方案中,使计算机执行以下处理。计算机基于用于词素解析的词典生成索引,上述索引是与登记于词典的各个词素有关的索引,并且在上述索引中设定有能够对登记于词典的各个词素判别前端和末尾的标志。计算机使用索引,从所输入的字符数据中提取多个能够拆分的单词。通过使用索引,能够高速并且抑制文件尺寸地进行解析。附图说明图1是用于对本实施例的解析装置的处理的一个例子进行说明的图。图2是表示本实施例的解析装置的结构的功能框图。图3是表示字符串数据的数据结构的一个例子的图。图4是表示词典数据的数据结构的一个例子的图。图5是表示数组数据的数据结构的一个例子的图。图6是表示索引的数据结构的一个例子的图。图7是用于对索引的哈希化进行说明的图。图8是表示索引数据的数据结构的一个例子的图。图9是用于对恢复哈希化后的索引的处理的一个例子进行说明的图。图10是用于对提取CJK单词的处理的一个例子进行说明的图(1)。图11是用于对提取CJK单词的处理的一个例子进行说明的图(2)。图12是表示解析装置的设定部的处理过程的流程图。图13是表示解析装置的提取部的处理过程的流程图。图14是表示实现与解析装置相同的功能的计算机的硬件结构的一个例子的图。具体实施方式以下,基于附图对本申请所公开的解析程序、解析方法以及解析装置的实施例进行详细说明。此外,本专利技术并不被该实施例限定。实施例图1是用于对本实施例的解析装置的处理的一个例子进行说明的图。如图1所示,解析装置在从字符串数据140a中提取成为拆分候选的单词的情况下,执行下述的处理。例如,字符串数据140a是由CJK字符构成的文档的数据。CJK字符对应于中文、日文或者韩文的字符。解析装置对字符串数据140a与词典数据140b进行比较。词典数据140b是定义有成为拆分候选的单词(词素)的数据。解析装置从前端开始对字符串数据140a进行扫描,并提取命中词典数据140b中定义的单词的字符串,并储存至数组数据140c。数组数据140c具有字符串数据140a所包含的字符串中的在词典数据140b中定义的单词。对各单词的分隔,登记<US(unitseparator:单位分隔符)>。例如,解析装置在通过对字符串数据140a与词典数据140b进行比较,而依次命中词典数据140b中登记的“アメリカ”、“アメリカ先住民”、“アメリカ先住民族”的情况下,生成图1所示的数组数据140c。解析装置若生成数组数据140c,则生成与数组数据140c对应的索引140d。索引140d是将字符和偏移量建立有对应关系的信息。偏移量表示存在于数组数据140c上的相应的字符的位置。例如,在字符“ア”存在于数组数据140c的从前端起第n1字符的情况下,在索引140d的与字符“ア”对应的行(位图)中,在偏移量n1的位置设置标志“1”。另外,本实施例中的索引140d对单词的“前端”、“末尾”、<US>的位置也与偏移量建立对应关系。例如,单词“アメリカ”的前端为“ア”,末尾为“カ”。在单词“アメリカ”的前端“ア”存在于数组数据140c的从前端起第n2字符的情况下,在索引140d的与前端对应的行中,在偏移量n2的位置设置标志“1”。在单词“アメリカ”的末尾“カ”存在于数组数据140c的从前端起第n3字符的情况下,在索引140d的与“末尾”对应的行中,在偏移量n3的位置设置标志“1”。另外,在“<US>”存在于数组数据140c的从前端起第n4字符的情况下,在索引140d的与“<US>”对应的行中,在偏移量n4的位置设置标志“1”。解析装置通过参照索引140d,能够把握构成字符串数据140a所包含的单词的字符的位置、字符的前端、末尾、分隔(<US>)。另外,可以说字符串数据140a中的能够根据索引140d判断的从前端到末尾所包含的字符串为能够拆分的单词。解析装置通过基于索引140d,将从前端到末尾的字符串作为分隔的单位来判定最长一致字符串,来从字本文档来自技高网
...

【技术保护点】
1.一种解析程序,使计算机执行以下处理:/n基于用于词素解析的词典生成索引,所述索引是与登记于所述词典的各个词素有关的索引,并且在所述索引中设定有能够对登记于所述词典的各个词素判别前端和末尾的标志,/n使用所述索引,从所输入的字符数据中提取多个能够拆分的单词。/n

【技术特征摘要】
【国外来华专利技术】20170516 JP 2017-0976701.一种解析程序,使计算机执行以下处理:
基于用于词素解析的词典生成索引,所述索引是与登记于所述词典的各个词素有关的索引,并且在所述索引中设定有能够对登记于所述词典的各个词素判别前端和末尾的标志,
使用所述索引,从所输入的字符数据中提取多个能够拆分的单词。


2.根据权利要求1所述的解析程序,其特征在于,
生成所述索引的处理通过对所述字符数据与登记于所述词典的各个词素进行比较生成排列有所述字符数据所包含的词素的数组数据,并按照每个字符生成设置有表示所述数组数据的字符的偏移量的标志的位图,来生成所述索引。


3.根据权利要求2所述的解析程序,其特征在于,
还执行对所述索引设定前端位图和末尾位图的处理,在所述前端位图中设置有表示所述数组数据的字符中的前端的字符的偏移量的标志,在所述末尾位图中设置有表示所述数组数据的字符中的末尾的字符的偏移量的标志。


4.根据权利要求3所述的解析程序,其特征在于,
进行所述提取的处理通过对与所述字符数据所包含的各字符的组合对应的位图与所述前端位图及所述末尾位图进行AND运算,来判定能够拆分的单词的前端位置以及末尾位置,并且基于判定结果,提取多个能够拆分的单词。


5.一种解析方法,是由计算机执行的解析方法,在所述解析方法中执行以下处理:
基于用于词素解析的词典生成索引,所述索引是与登记于所述词典的各个词素有关的索引,并且在所述索引中设定有能够对登记于所述词典的各个词素判别前端和末尾的标志,
使用所述索引,从所输入的字符数据中提取多个能够拆分的单词。


6.根据权利要求5所述的解析方法,其特征在于,
生成所述索引的处理通过对所述字符数据与登记于所述词典的各个词素进行比较生成排列有所述字符数据所包含的词素的数组数据,并按照每个字符生成设...

【专利技术属性】
技术研发人员:片冈正弘出内将夫尾上聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1