摘要生成装置、控制方法及系统制造方法及图纸

技术编号:33120749 阅读:28 留言:0更新日期:2022-04-17 00:19
提供一种信息处理装置,能够生成表现了代表话题的摘要文。根据语言数据生成摘要文的信息处理装置,具备:单词处理部(112),按照使有可能与1个话题有关的单词彼此属于同一单词簇的方式,对语言数据所包含的单词进行分类并生成多个单词簇;簇推定部(113),从多个单词簇中,选择包含与代表语言数据的记载内容的话题有关的单词的代表单词簇;以及摘要部(114),根据语言数据,基于代表单词簇,生成摘要文。生成摘要文。生成摘要文。

【技术实现步骤摘要】
摘要生成装置、控制方法及系统


[0001]本专利技术涉及对文档进行摘要的技术。

技术介绍

[0002]一般在许多企业等中,参照人工作成的笔记,使用文档编辑器作成商讨、会议的议事录。
[0003]针对于此,提出了如下议事录作成系统:为了削减人工作成议事录的工时,使用语音识别技术,对会议的议事中发生的语音进行识别,自动转录一字一句。还提出了如下技术:通过针对转录而得到的文档,实施文档结构解析处理,对文档进行摘要。
[0004]利用了公知的自然语言处理的摘要技术(例如,参照非专利文献1)作为这些摘要生成方法。在这些摘要技术中,对摘要对象的文档所包含的频出单词进行检测,从摘要对象的文档中提取包含许多频出单词的句子作为摘要文。
[0005]在先技术文献
[0006]非专利文献
[0007]非专利文献1:GunesErkan等,LexRank:Graph

basedLexicalCentralityasSalienceinTextSummarization,因特网<URL:https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume22/erkan04a

html/erkan04a.html>

技术实现思路

[0008]专利技术所要解决的课题
[0009]根据非专利文献1等的公知的摘要技术,由于提取包含许多频出单词的句子作为摘要文,因此在频出单词为与代表文档的记载内容的话题关系较远的单词的情况下,存在提取的摘要文无法表现代表话题的问题。
[0010]本公开的目的在于,解决这样的问题,提供一种能够生成表现代表话题的摘要文的摘要生成装置、控制方法及系统。
[0011]用于解决课题的手段
[0012]为了达成上述目的,本公开的一方式是根据语言数据生成摘要文的摘要生成装置,其特征在于,具备:单词处理机构,按照使有可能与1个话题有关的单词彼此属于同一单词簇的方式,对所述语言数据所包含的单词进行分类并生成多个单词簇;选择机构,从所述多个单词簇中,选择包含与代表所述语言数据的记载内容的话题有关的单词的代表单词簇;以及生成机构,根据所述语言数据,基于所述代表单词簇,生成摘要文。
[0013]在此,也可以是,所述单词处理机构对表示属于生成的各单词簇的各单词属于与该单词簇对应的话题的可能性的高低的概率进行推定,所述选择机构使用针对所述多个单词簇各自推定的各单词的概率,从所述多个单词簇中选择所述代表单词簇。
[0014]在此也可以是,所述选择机构通过按每个单词簇,求出针对所述语言数据所包含的多个单词各自推定的概率的总和或总乘积,计算表示由该单词簇代表所述语言数据的记
载内容的似然度(likelihood)的指标值,并比较针对多个单词簇计算出的多个指标值,选择所述代表单词簇。
[0015]在此,也可以是,所述单词处理机构具备:词素解析机构,对所述语言数据进行词素解析,生成多个词素,并对各词素的词性进行推定;词性筛选机构,从由所述词素解析机构生成的多个词素中提取作为名词的单词;单词簇生成机构,对提取的所述单词进行分类,并生成所述多个单词簇;以及概率推定机构,对属于生成的所述多个单词簇各自的各单词的所述概率进行推定。
[0016]在此,也可以是,所述单词簇生成机构求出所述语言数据内的单词与单词的位置关系,按每个单词对由所述词性筛选机构提取的单词的出现频率进行合计,并使用求出的位置关系及合计出的出现频率,生成所述多个单词簇,所述概率推定机构使用求出的位置关系及合计出的出现频率,对各单词的概率进行推定。
[0017]在此,也可以是,还具备语音识别机构,对语音数据进行转换来生成所述语言数据,所述单词处理机构根据生成的所述语言数据生成所述多个单词簇。
[0018]在此,也可以是,还具备存储机构,事先对表示与1个话题有关的单词的先验知识信息进行存储,所述单词处理机构使用所述先验知识信息,对所述语言数据所包含的单词进行分类。
[0019]在此,也可以是,还具备受理机构,从用户受理应生成的单词簇的个数的指定,所述单词处理机构生成指定的个数的单词簇。
[0020]在此,也可以是,还具备存储机构,事先对表示与用户所希望的话题无关的单词的异常值信息进行存储,所述单词处理机构在对所述语言数据所包含的单词进行分类时,将异常值信息所表示的单词排除。
[0021]在此,也可以是,所述语言数据由多个文档构成,所述单词处理机构将所述语言数据整体、所述语言数据所包含的文档、所述文档所包含的段落、所述文档所包含的多个句子、及所述文档所包含的1个句子中的一项作为数据单位,按每个数据单位,对该数据单位所包含的单词进行分类,并按每个数据单位生成所述多个单词簇,所述选择机构按每个数据单位,从所述多个单词簇中,选择所述代表单词簇。
[0022]在此,也可以是,还具备受理机构,从用户受理所述数据单位的指定,所述单词处理机构按照从用户处受理的每个数据单位进行分类。
[0023]在此,也可以是,所述生成机构按每个数据单位,根据该数据单位生成所述摘要文。
[0024]在此,也可以是,还具备分析机构,按每个代表单词簇,决定该代表单词簇的重要度。
[0025]在此,也可以是,所述生成机构根据决定的重要度,使摘要文的数据量可变。
[0026]在此,也可以是,还具备显示机构;以及受理机构,从用户受理输入,所述显示机构按每个代表单词簇,显示决定的所述重要度,所述受理机构按每个代表单词簇,从用户受理重要度的变更,所述分析机构将代表单词簇的重要度变更为从用户处受理的重要度。
[0027]在此,也可以是,由所述选择机构选择出的所述代表单词簇的个数少于由所述单词处理机构生成的多个单词簇的个数。
[0028]在此,也可以是,所述语言数据由多个文档构成,所述选择机构,针对所述多个文
档中的每一个,从所述多个单词簇中,选择包含与代表该文档的记载内容的话题有关的单词的代表单词簇,所述生成机构在作为生成包含与同一话题有关的单词的代表单词簇的基础的话题文档存在多个的情况下,根据所述多个话题文档,基于所述代表单词簇,生成摘要文。
[0029]在此也可以是,所述单词处理机构将所述语言数据整体、所述语言数据所包含的文档、所述文档所包含的段落、所述文档所包含的多个句子、及所述文档所包含的1个句子中的一项作为数据单位,按每个数据单位,对该数据单位所包含的单词进行分类,并按每个数据单位,生成所述多个单词簇,所述选择机构按每个数据单位从所述多个单词簇中选择所述代表单词簇,所述生成机构根据所述多个话题文档内的多个数据单位生成所述摘要文。
[0030]另外,本公开的一方式是由上述摘要生成装置及根据语音数据生成语言数据的服务器装置构成的系统,所述服务器装置具备:通信机构,接收语音数据,并将根据接收到的所述语音数据生成的语言数据向所述摘要生成装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种根据语言数据生成摘要文的摘要生成装置,其特征在于,具备:单词处理机构,按照使有可能与1个话题有关的单词彼此属于同一单词簇的方式,对所述语言数据所包含的单词进行分类并生成多个单词簇;选择机构,从所述多个单词簇中,选择包含与代表所述语言数据的记载内容的话题有关的单词的代表单词簇;以及生成机构,根据所述语言数据,基于所述代表单词簇,生成摘要文。2.如权利要求1所述的摘要生成装置,其特征在于,所述单词处理机构对表示属于生成的各单词簇的各单词属于与该单词簇对应的话题的可能性的高低的概率进行推定,所述选择机构使用针对所述多个单词簇各自推定的各单词的概率,从所述多个单词簇中选择所述代表单词簇。3.如权利要求2所述的摘要生成装置,其特征在于,所述选择机构通过按每个单词簇,求出针对所述语言数据所包含的多个单词各自推定的概率的总和或总乘积,计算表示由该单词簇代表所述语言数据的记载内容的似然度的指标值,并比较针对多个单词簇计算出的多个指标值,选择所述代表单词簇。4.如权利要求2所述的摘要生成装置,其特征在于,所述单词处理机构,具备:词素解析机构,对所述语言数据进行词素解析,生成多个词素,并对各词素的词性进行推定;词性筛选机构,从由所述词素解析机构生成的多个词素中提取作为名词的单词;单词簇生成机构,对提取的所述单词进行分类,并生成所述多个单词簇;以及概率推定机构,对属于生成的所述多个单词簇各自的各单词的所述概率进行推定。5.如权利要求4所述的摘要生成装置,其特征在于,所述单词簇生成机构求出所述语言数据内的单词与单词的位置关系,按每个单词对由所述词性筛选机构提取的单词的出现频率进行合计,并使用求出的位置关系及合计出的出现频率,生成所述多个单词簇,所述概率推定机构使用求出的位置关系及合计出的出现频率,对各单词的概率进行推定。6.如权利要求1所述的摘要生成装置,其特征在于,还具备语音识别机构,对语音数据进行转换来生成所述语言数据,所述单词处理机构根据生成的所述语言数据生成所述多个单词簇。7.如权利要求1所述的摘要生成装置,其特征在于,还具备存储机构,事先对表示与1个话题有关的单词的先验知识信息进行存储,所述单词处理机构使用所述先验知识信息,对所述语言数据所包含的单词进行分类。8.如权利要求1所述的摘要生成装置,其特征在于,还具备受理机构,从用户受理应生成的单词簇的个数的指定,所述单词处理机构生成指定的个数的单词簇。9.如权利要求1所述的摘要生成装置,其特征在于,还具备存储机构,事先对表示与用户所希望的话题无关的单词的异常值信息进行存
储,所述单词处理机构在对所述语言数据所包含的单词进行分类时,将异常值信息所表示的单词排除。10.如权利要求1所述的摘要生成装置,其特征在于,所述语言数据由多个文档构成,所述单词处理机构将所述语言数据整体、所述语言数据所包含的文档、所述文档所包含的段落、所述文档所包含的多个句子、及所述文档所包含的1个句子中的一项作为数据单位,按每个数据单位,对该数据单位所包含的单词进行分类,并按每个数据单位生成所述多个单词簇,所述选择机构按每个数据单位,从所述多个单词簇中,选择所述代表单词簇。11.如权利要求10所述的摘要生成装置,其特征在于,还具备受理机构,从用户受理所述数据单位的指定,所述单词处理机构按照从用户处受理的每个数据单位进行分类。12.如权利要求10所述的摘要生成装置,其特征在于,所述生成机构按每个数据单位,根据该数据单位生成所述摘要文。13.如权利要求1所述的摘要生成装置,其特征在于,还具备分析机构,按每个代表单词簇,决定该代表单词簇的重要度。14.如权利要求13所述的摘要生成装置,其特征在于,所述生成机构根据决定的重要度,使摘要文的数据量可变。15.如权利要求13所述的摘要生成装置,其特征在于,还具备:显示机构;以及受理机构,从用户受理输入,所述显示机构按每个代表单词簇,显示决定的所述重要度,所述受理机构,按每个代表单词簇,从用户受理重要度的变更,所述分析机构将代表单词簇的重要度变更为从用户处受理的重要度。16.如权利要求1所述的摘要生成装置,其特征在于,由所述选择机构选择出的所述代表单词簇的个数少于由所述单词处理机构生成的多个单词簇的个数。17.如权利要求1所述的摘要生成装置,其特征在于,所述语言数据由多个文档构成,所述选择机构针对所述多个文档中的每一个,从所述多个单词簇中,选择包含与代表该文档的记载内容的话题有关的单词的代表单词簇,所述生成机构在作为生成包含与同一话题有关的单词的代表单词簇的基础的话题文档存在多个的情况下,根据所述多个话题文档,基于所述代表单词簇,生成摘要文。18.如权利要求17所述的摘要生成装置,其特征在于,所述单词处理机构将所述语言数据整体、所述语言数据所包含的文档、所述文档所包含的段落、所述文档所包含的多个句子、及所述文档所包含的1个句子中的一项作为数据单位,按每个数据单位,对该数据单位所包含的单词进行分类,并按每个数据单位,生成所述多个单词簇,
所述选择机构按每个数据单位从所述多个单词簇中选择所述代表单词簇,所述生成机构根据所述多个话题文档内的多个数据单位生成所述摘要文。19.一种由权利要求1所述的摘要生成装置及根据语音数据生成语言数据的服务器装置构成的系统,其特征在于,所述服务器装置具备:通信机构,接收语音数据,并将根据接收到的所述语音数据生成的语言数据向所述摘要生成装置发送;以及语音识别...

【专利技术属性】
技术研发人员:桑原崇
申请(专利权)人:柯尼卡美能达株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1