新词发现方法及装置制造方法及图纸

技术编号：12653667 阅读：97 留言：0更新日期：2016-01-06 11:37

一种新词发现方法及装置，所述方法包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照基础词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词，且位于所述基础名词的特定相对位置的词语为名词或形容词；对所述候选数据串进行判断处理，以发现新词。所述方法及装置可以提升新词发现的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及智能交互领域，尤其设及一种新词发现方法及装置。
技术介绍
在中文信息处理的众多领域，均需要基于词典完成对应的功能。例如，在智能检索系统或智能对话系统中，通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等，其中每个过程都是通过词语为最小单位进行计算，计算的基础为词语词典，所W词语词典对于整个系统的性能有着很大的影响。社会文化的进步和变迁、经济商业的快速发展，往往带动着语言的变化，而最快速体现语言变化的就是新词的出现。特别是在特定领域内，是否能在新词出现后及时更新词语词典，对词语词典所在的智能对话系统的系统效率有着决定性的影响。新词也就是新发现的单独词，在现有技术中，至少有W下=个来源：客户提供的领域内的新词；通过客户提供的语料发现的新词；运营过程中发现的新词。现有技术中新词发现准确度有待提升。
技术实现思路
本专利技术解决的技术问题是如何提升新词发现的准确度。为解决上述技术问题，本专利技术实施例提供一种新词发现方法，包括：对接收到的语料进行预处理，W得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照基础词典中包含的单独词对所述语句数据进行分词处理，W得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，W生成候选数据串；判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词，且位于所述基础名词的特定相对位置的词语为名词或形容词；对所述候选数据串进行判断处理，W发现新词；所述判断处理包括：当所述候选数据串非特定候选数据串时，计算所述候选数据串中各...
新词发现方法及装置

【技术保护点】
一种新词发现方法，其特征在于，包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照基础词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；判断所述候选数据串是否为特定候选数据串，所述特定候选数据串包括基础名词，且位于所述基础名词的特定相对位置的词语为名词或形容词；对所述候选数据串进行判断处理，以发现新词；所述判断处理包括：当所述候选数据串非特定候选数据串时，计算所述候选数据串中各词语与其内侧词语的信息熵，并去除所述信息熵在预设范围外的候选数据串；当所述候选数据串为特定候选数据串时，仅计算所述基础名词之外的词语与其内侧词语的信息熵，去除所述信息熵在预设范围外的候选数据串。

【技术特征摘要】

【专利技术属性】
技术研发人员：张昊，朱频频，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人