一种分析包括中文字文本的方法和系统技术方案

技术编号：38808252 阅读：11 留言：0更新日期：2023-09-15 19:47

本发明专利技术提供一种以计算机执行分析包括中文字文本的方法。包括步骤：将文本截取为分别具有第一预定义数量的N个字符的多个第一块单元；确定形成选定字符的一个或多个部首；通过将一个或多个部首与包括语义部首及其关联含义的数据库进行比较，识别一个或多个语义部首并确定与选定字符相关的一个或多个语义部首的一个或多个含义；基于每个第一块单元的选定字符的一个或多个语义部首的确定的一个或多个含义，将多个第一块单元分类为一个或多个类别组；计算分类在相应的一个或多个类别组中的第一块单元的数量以表示文本的一个或多个特征。征。征。

全部详细技术资料下载

【技术实现步骤摘要】
一种分析包括中文字文本的方法和系统

[0001]本专利技术涉及一种以计算机执行用于分析文本的方法和系统，以及特别但非排他地，用于分析包括中文字的文本。

技术介绍

[0002]信息和计算机技术的进步对包括教育在内的我们生活的各个方面产生显著影响。使用电子化学习资源作为课堂内外的教学的媒介已经成为全球趋势。随着电子化学习普及率的扩大，开发了大量包括电子文本和电子教科书的电子教学资源。
[0003]然而，与传统学习资料相似，教育工作者和家长所面临的一个困难在于，通常难以评估电子资源是于合适主题或程度以满足特定教学或学习要求。而且还难以确定电子资源的内容是否能满足所需的特定学习目的，例如电子资源是否具有正确的主题、目的和/或类型。通常这些都是根据教育工作者和家长的经验进行评估，这容易受到主观看法的影响，因此可能是不准确的。
[0004]专利技术目的
[0005]本专利技术的一个目的是提供一种以计算机执行用于分析一段中文字的或包括中文字的电子文本的方法和系统。
[0006]本专利技术的另一目的是在某种程度上缓解或消除与已知电子文本分析产品关联的一个或多个问题，或者至少提供有用的备选方案。
[0007]上述目的通过独立权利要求的特征的组合来实现；从属权利要求公开了本专利技术的其他有利实施例。
[0008]本领域的技术人员将从以下描述中得出本专利技术的其他目的。因此，以上目的陈述不是穷尽的，而是只用来说明本专利技术的许多目的。

技术实现思路

[0009]在第一主要方面...

【技术保护点】

【技术特征摘要】
1.一种以计算机执行用于分析包括中文字的一段文本的方法，所述方法包括步骤：将所述文本截取为多个第一块单元，每个所述第一块单元具有第一预定义数量的N个字符，其中，N是整数并且大于或等于1；对于从每个所述第一块单元的所述N个字符中的选定字符，确定形成所述选定字符的一个或多个部首；通过将所述一个或多个部首与包括语义部首及其关联含义的数据库进行比较，从形成所述选定字符的所述一个或多个部首中识别一个或多个语义部首，并确定与所述选定字符相关的所述一个或多个语义部首的一个或多个含义；基于每个所述第一块单元的所述选定字符的所述一个或多个语义部首的所述确定的一个或多个含义，将所述多个第一块单元分类为一个或多个类别组；以及计算分类在相应的所述一个或多个类别组中的所述第一块单元的数量以表示所述文本的一个或多个特征。2.根据权利要求1所述的以计算机执行的方法，其中，将所述多个第一块单元分类为一个或多个类别组的所述方法还包括：基于每个所述第一块单元的所述选定字符的所述一个或多个语义部首的所述一个或多个含义的词性，将所述一个或多个第一块单元分类。3.根据权利要求2所述的以计算机执行的方法，其中，所述文本的所述一个或多个的特征包括所述文本的一个或多个主题、类型、程度和/或难度级别。4.根据权利要求3所述的以计算机执行的方法，其中，所述特征由每个所述第一块单元的所述选定字符的所述一个或多个语义部首的一个或多个所述词性的比率确定。5.根据权利要求1所述的以计算机执行的方法，其中，所述一个或多个语义部首的所述含义包括明确直接含义和隐含关联含义。6.根据权利要求1所述的以计算机执行的方法，其中，所述计...

【专利技术属性】
技术研发人员：梁伟峰，
申请(专利权)人：衍利行资产有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人