语义分析方法和装置制造方法及图纸

技术编号：12386510 阅读：73 留言：0更新日期：2015-11-25 18:50

本发明专利技术公开了一种语义分析方法和装置，涉及语言处理技术。为解决现有技术易造成信息丢失的问题而发明专利技术。本发明专利技术实施例提供的技术方案包括：对用户输入语音对应的文本进行分词，得到L个词语，所述L≥1；分别获取所述L个词语的特性；根据所述特性分别确定所述L个词语包含的信息量，并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语；分别以所述中心词语为中心做窗口，确定所述中心词语的上下文词语；将所述上下文词语与预先训练得到的语义模型进行匹配，得到匹配结果；根据所述匹配结果分析语义。该方案可以应用在导航、订票、天气查询、酒店预订等领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理技术，尤其涉及一种语义分析方法和装置。
技术介绍
近年来，语音识别技术的发展较大程度的提高了人机交互水平，而语义分析技术作为理解自然语言的关键部分，对于人机交互的智能化程度起到了决定性作用。现有的语义分析方法包括：对句子进行分词，得到M个词语；分别对M个词语进行语义角色标注，寻找并定位该句子中的谓语；对该谓语的施与者和接受者进行标注，得到句子的语义。然而，当句子中包含多个信息时，由于仅对谓语的施与者和接受者进行标注以确定句子的语义，使得无法标注句子中的其他重要信息，易造成信息丢失。此外，当句子为口语化语句时，语义分析过程中可能无法寻找到句子中的谓语，进而难以实现语义分析。
技术实现思路
本专利技术的实施例提供一种语义分析方法和装置，能够分析句子包含的多个信息。为达到上述目的，本专利技术的实施例采用如下技术方案：一种语义分析方法，包括：对用户输入语音对应的文本进行分词，得到L个词语，所述L≥1；分别获取所述L个词语的特性；根据所述特性分别确定所述L个词语包含的信息量，并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语；分别以所述中心词语为中心做窗口，确定所述中心词语的上下文词语；将所述上下文词语与预先训练得到的语义模型进行匹配，得到匹配结果；根据所述匹配结果分析语义。一种语义分析装置，包括：第一分词模块，用于对用户输入语音对应的文本进行...

【技术保护点】
一种语义分析方法，其特征在于，包括：对用户输入语音对应的文本进行分词，得到L个词语，所述L≥1；分别获取所述L个词语的特性；根据所述特性分别确定所述L个词语包含的信息量，并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语；分别以所述中心词语为中心做窗口，确定所述中心词语的上下文词语；将所述上下文词语与预先训练得到的语义模型进行匹配，得到匹配结果；根据所述匹配结果分析语义。

【技术特征摘要】
1.一种语义分析方法，其特征在于，包括：
对用户输入语音对应的文本进行分词，得到L个词语，所述L≥1；
分别获取所述L个词语的特性；
根据所述特性分别确定所述L个词语包含的信息量，并从所述L个词语中
选取包含信息量多的至少一个词语作为中心词语；
分别以所述中心词语为中心做窗口，确定所述中心词语的上下文词语；
将所述上下文词语与预先训练得到的语义模型进行匹配，得到匹配结果；
根据所述匹配结果分析语义。
2.根据权利要求1所述的语义分析方法，其特征在于，所述方法还包括：
获取所述用户输入语音所涉及的使用领域；
所述分别获取所述L个词语的特性，包括：根据所述使用领域分别获取所
述L个词语的特性；
所述根据所述特性分别确定所述L个词语包含的信息量，包括：根据所述
使用领域和所述特性分别确定所述L个词语包含的信息量。
3.根据权利要求1或2所述的语义分析方法，其特征在于，所述分别以所
述中心词语为中心做窗口，确定所述中心词语的上下文词语，包括：
以所述L个词语中第一个中心词语为中心，预设个数的上下文词语做窗口，
确定所述第一个中心词语的上下文词语；
所述L个词语中中心词语的个数大于1时，所述窗口滑动到第二个中心词
语，确定所述第二个中心词语的上下文词语后，再次滑动窗口，直至所述L个
词语中的最后一个中心词语。
4.根据权利要求1或2所述的语义分析方法，其特征在于，所述确定所述
中心词语的上下文词语，包括：
根据所述窗口获取所述中心词语的上文词语和下文词语；
判断所述上文词语和下文词语是否为非口语性词汇；
如果是，根据所述上文词语和下文词语确定所述中心词语的上下文词语。
5.根据权利要求1或2所述的语义分析方法，其特征在于，所述方法还包
括：
获取预设的训练语句集和所述训练语句集中每个训练语句的语义；
分别对所述训练语句集中每个训练语句进行分词，得到每个训练语句包含
的训练词语后，获取每个训练词语的特性；
根据所述每个训练词语的特性分别确定每个训练词语包含的信息量，并选
取包含信息量多的至少一个训练词语作为中心训练词语；
分别统计每个中心训练词语的上下文训练词语出现的概率；
根据统计得到的概率和所述每个训练语句的语义生成所述语义模型。
6.根据权利要求5所述的语义分析方法，其特征在于，所述分别统计每个
中心训练词语的上下文训练词语出现的概率，包括：
分别统计每个中心训练词语的上下文训练词语同时出现的概率；或者
分别统计每个中心训练词语的上下文训练词语分别出现的概率。
7.根据权利要求5所述的语义分析方法，其特征在于，所述分别统计每个
中心训练词语的上下文训练词语出现的概率，包括：
判断所述每个中心训练词语的上下文训练词语是否为非口语性词汇；
如果是，分别统计每个中心训练词语的上下文训练词语出现的概率。
8.一种语义分析装置，其特征在于，包括：
第一分词模块，用于对用户输入语音对应的文本进行分词，得到L个词语，
所述L≥1；
第一标注模块，与所述第一分词模块相连，用于分别获取所述第一分词模
块得到的L个词语的特性；
第一中心词语选取模块，与所述第一分词模块和所述第一标注模块相连，
用于根据所述第一标注模块标注的特性分别确定所述L个词语包含的信息量，
并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语；
第一上下文获取模块，与所述第一中心词语选取模块相连，用于分别以所
述第一中心词语选取模块选取的中心词语为中心做窗口，确定所述中心词语的
上下文词语；
模型匹配模块，与所述第一上下文获取模块相连，用于将所述第一上下...

【专利技术属性】
技术研发人员：金贵，赵祎，王力劭，赵峰，
申请(专利权)人：清华大学，深圳市车音网科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人