解析程序、解析方法以及解析装置制造方法及图纸

技术编号：23154472 阅读：49 留言：0更新日期：2020-01-18 15:30

解析装置(100)基于用于词素解析的词典生成索引，上述索引是与登记于词典的各个词素有关的索引，并且在上述索引中设定有能够对登记于词典的各个词素判别前端和末尾的标志。解析装置(100)使用索引，来从所输入的字符数据中提取多个能够拆分的单词。

Analysis program, method and device

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】解析程序、解析方法以及解析装置
本专利技术涉及解析程序等。
技术介绍
以往，与以空格等分隔符进行分隔的字母表记的字符不同，对于CJK(中文、日文、韩文)字符，要在识别词素的分隔之后，进行各种处理。例如，作为根据对象字符数据解析词素的分隔并输出能够拆分的单词的字符串的现有技术，有Mecab、Chasen等词素词典和Trie树(前缀树)及DoubleArray(双数组)。作为利用词素的分隔的解析结果的技术，有将对象字符数据矢量化的Word2Vec等技术。专利文献1：日本特开2010－146273号公报专利文献2：日本特开平10－222511号公报专利文献3：日本特开2014－106707号公报专利文献4：国际公开第2009/063925号然而，在上述的现有技术中，存在无法高速并且抑制文件尺寸地进行词素的分隔的解析的问题。近年来，在Word2Vec等解析等、利用词素解析的结果的领域中，词素的分隔位置的精度的重要性日益增加。为了应对该需求，在现有技术中，增加词素词典的登记词，提取多个能够拆分的单词候选。但是，在增加了词素词典的登记词的情况下，Trie树和DoubleArray的尺寸急剧增大，检索以及判定所需的时间变长。例如，在判定CJK字符串的“アメリカ先住民族”这样的词素的分隔的情况下，不是简单地仅包含“アメリカ先住民”这样的判定，也要一并判定不进行像“アメリカ先住民”、“族”这样的分隔方式。另外，在Word2Vec将对象字符数据矢量化的情况下...

【技术保护点】
1.一种解析程序，使计算机执行以下处理：/n基于用于词素解析的词典生成索引，所述索引是与登记于所述词典的各个词素有关的索引，并且在所述索引中设定有能够对登记于所述词典的各个词素判别前端和末尾的标志，/n使用所述索引，从所输入的字符数据中提取多个能够拆分的单词。/n

【技术特征摘要】
【国外来华专利技术】20170516 JP 2017-0976701.一种解析程序，使计算机执行以下处理：
基于用于词素解析的词典生成索引，所述索引是与登记于所述词典的各个词素有关的索引，并且在所述索引中设定有能够对登记于所述词典的各个词素判别前端和末尾的标志，
使用所述索引，从所输入的字符数据中提取多个能够拆分的单词。

2.根据权利要求1所述的解析程序，其特征在于，
生成所述索引的处理通过对所述字符数据与登记于所述词典的各个词素进行比较生成排列有所述字符数据所包含的词素的数组数据，并按照每个字符生成设置有表示所述数组数据的字符的偏移量的标志的位图，来生成所述索引。

3.根据权利要求2所述的解析程序，其特征在于，
还执行对所述索引设定前端位图和末尾位图的处理，在所述前端位图中设置有表示所述数组数据的字符中的前端的字符的偏移量的标志，在所述末尾位图中设置有表示所述数组数据的字符中的末尾的字符的偏移量的标志。

4.根据权利要求3所述的解析程序，其特征在于，
进行所述提取的处理通过对与所述字符数据所包含的各字符的组合对应的位图与所述前端位图及所述末尾位图进行AND运算，来判定能够拆分的单词的前端位置以及末尾位置，并且基于判定结果，提取多个能够拆分的单词。

5.一种解析方法，是由计算机执行的解析方法，在所述解析方法中执行以下处理：
基于用于词素解析的词典生成索引，所述索引是与登记于所述词典的各个词素有关的索引，并且在所述索引中设定有能够对登记于所述词典的各个词素判别前端和末尾的标志，
使用所述索引，从所输入的字符数据中提取多个能够拆分的单词。

6.根据权利要求5所述的解析方法，其特征在于，
生成所述索引的处理通过对所述字符数据与登记于所述词典的各个词素进行比较生成排列有所述字符数据所包含的词素的数组数据，并按照每个字符生成设...

【专利技术属性】
技术研发人员：片冈正弘，出内将夫，尾上聪，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人