一种基于文法向量乘法的藏文音节校对方法技术

技术编号:31580064 阅读:27 留言:0更新日期:2021-12-25 11:23
本发明专利技术公开了一种基于文法向量乘法的藏文音节校对方法,属于藏文信息处理技术领域,本发明专利技术通过将藏文音节进行数据格式转换,得到Unicode编码格式的藏文音节序列,并将藏文音节序列进行标记,将标记后的藏文音节通过判断其是否符合藏文音节的语法,建立4个文法规范向量M1、M2、M3和M4,再通过向量乘法去计算新的向量M,仅需将向量M与初始向量M0进行比较,即可得出原藏文音节序列是否符合规范,向量M与初始向量M0元素不一样的位置即为不符合语法规范的位置,即可明确得出语法出错的具体位置,本发明专利技术设计的藏文音节校对方法,方案简单,可有效解决长期困扰藏文音节校对的困难。可有效解决长期困扰藏文音节校对的困难。可有效解决长期困扰藏文音节校对的困难。

【技术实现步骤摘要】
一种基于文法向量乘法的藏文音节校对方法


[0001]本专利技术属于藏文信息处理
,具体涉及一种基于文法向量乘法的藏文音节校对方法。

技术介绍

[0002]目前,英文文本校对技术取得了大的成果,部分成果实现了商品化。国内在文本校对方面的研究始于九十年代初期,但发展速度较快,其中藏文字的校对主要方法采用字典匹配的方法进行。2013年安见才让等人在《中文信息学报》上刊登的《基于分段的藏字校对算法研究》详细描述了藏文的文法以及根据藏文文法提出了基于分段的藏文校对方法。但目前藏文音节的校对方法都比较复杂,把藏文文法中的多个规范混在一起进行处理,难于理解和实现藏文音节的校对。

技术实现思路

[0003]针对现有技术中的上述不足,本专利技术提供的一种基于文法向量乘法的藏文音节校对方法解决了现有藏文音节的校对方法都比较复杂,把藏文文法中的多个规范混在一起进行处理,存在难于理解和实现的问题。
[0004]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于文法向量乘法的藏文音节校对方法,包括以下步骤:
[0005]S1、对等待校对的藏文音节进行数据格式转换,将其数据转换为Unicode编码格式,得到藏文音节序列;
[0006]S2、将藏文音节序列根据其构件拆分成七个元素,将七个元素按先后顺序标记为t5、t4、t6、t3、t2、t1、t0;
[0007]S3、根据t5、t6,建立第一向量M1;
[0008]S4、根据t4、t6、t3,建立第二向量M2;
[0009]S5、根据t2,建立第三向量M3;
[0010]S6、根据t1、t0,建立第四向量M4;
[0011]S7、根据初始向量M0、第一向量M1、第二向量M2、第三向量M3和第四向量M4,通过向量乘法,得到向量M,其中,初始向量M0=(1,1,1,1,1,1,1);
[0012]S8、判断向量M是否等于初始向量M0,若是,则跳转至步骤S9,若否,则跳转至步骤S10;
[0013]S9、得出并保存“该等待校对的藏文音节符合藏文音节文法”的结论,结束;
[0014]S10、得出并保存“该等待校对的藏文音节不符合藏文音节文法”的结论,结束。
[0015]进一步地,步骤S3包括以下分步骤:
[0016]S31、对第一向量M1的全部元素赋1;
[0017]S32、判断元素t5、t6是否在集合S
R1
中,若是,则无需再赋值,若否,则赋值第一向量M1的第一和第三个元素为0,其中,
[0018]进一步地,所述步骤S4包括以下分步骤:
[0019]S41、对第二向量M2的全部元素赋1;
[0020]S42、判断t4、t6、t3是否在集合S
R2
中,若是,则无需再赋值,若否,赋值第二向量M2的第二、三和四个元素为0,其中,第二、三和四个元素为0,其中,
[0021]进一步地,所述步骤S5包括以下分步骤:
[0022]S51、对第三向量M3的全部元素赋1;
[0023]S52、判断元素t2是否在集合S
R3
中,若是,则无需再赋值,若否,则赋值第三向量M3的第五个元素为0,其中,
[0024]进一步地,所述步骤S6包括以下分步骤:
[0025]S61、对第四向量M4的全部元素赋1;
[0026]S62、判断t1、t0是否在集合S
R4
中,若是,则无需再赋值,若否,则赋值第四向量M4的第六和七个元素为0,其中,第六和七个元素为0,其中,
[0027]进一步地,所述步骤S7中向量乘法为:
[0028]M=M1×
M2×
M3×
M4[0029]其中,
×
为向量的叉乘运算。
[0030]本专利技术的有益效果为:本专利技术通过将藏文音节进行数据格式转换,得到Unicode编码格式的藏文音节序列,并将藏文音节序列进行标记,将标记后的藏文音节通过判断其是否符合藏文音节的语法,建立4个语法向量M1、M2和M3和M4,再通过语法向量乘法去计算新的
向量M,仅需将向量M与初始向量M0进行比较,即可得出原藏文音节是否符合规范,向量M与初始向量M0元素不一样的位置即为不符合语法规范的位置,即可明确得出语法出错的具体位置,本专利技术设计的藏文音节校对方法,方案简单,可有效解决长期困扰藏文音节校对的困难。
附图说明
[0031]图1为一种基于文法向量乘法的藏文音节校对方法的流程图。
具体实施方式
[0032]下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。
[0033]如图1所示,一种基于文法向量乘法的藏文音节校对方法,包括以下步骤:
[0034]S1、对等待校对的藏文音节进行数据格式转换,将其数据转换为Unicode编码格式,得到藏文音节序列;
[0035]S2、将藏文音节序列根据其构件拆分成七个元素,将七个元素按先后顺序标记为t5、t4、t6、t3、t2、t1、t0;
[0036]一个藏文音节由七个元素按一定的规则组成,七个元素分别为基字、前加字、上加字、下加字、元音、后加字和再后加字,t6为基字的标记,t5为前加字标记,t4为上加字标记,t3为下加字标记,t2为元音标记,t1为后加字标记,t0为再后加字标记。
[0037]第一向量M1、第二向量M2、第三向量M3和第四向量M4均包括7个元素。
[0038]S3、根据t5、t6,建立第一向量M1;
[0039]步骤S3包括以下分步骤:
[0040]S31、对第一向量M1的全部元素赋1;
[0041]S32、判断元素t5、t6是否在集合S
R1
中,若是,则无需再赋值,若否,则赋值第一向量M1的第一和第三个元素为0,其中,的第一和第三个元素为0,其中,
[0042]S4、根据t4、t6、t3,建立第二向量M2;
[0043]步骤S4包括以下分步骤:
[0044]S41、对第二向量M2的全部元素赋1;
[0045]S42、判断t4、t6、t3是否在集合S
R2
中,若是,则无需再赋值,若否,赋值第二向量M2的
第二、三和四个元素为0,其中,第二、三和四个元素为0,其中,
[0046]S5、根据t2,建立第三向量M3;
[0047]步骤S5包括以下分步骤:
[0048]S51、对第三向量M3的全部元素赋1;
[0049]S52、判断元素t2是否在集合S
R3
中,若是,则无需再赋值,若否,则赋值第三向量M3的第五个元素为0,其中,
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文法向量乘法的藏文音节校对方法,其特征在于,包括以下步骤:S1、对等待校对的藏文音节进行数据格式转换,将其数据转换为Unicode编码格式,得到藏文音节序列;S2、将藏文音节序列根据其构件拆分成七个元素,将七个元素按先后顺序标记为t5、t4、t6、t3、t2、t1、t0;S3、根据t5、t6,建立第一向量M1;S4、根据t4、t6、t3,建立第二向量M2;S5、根据t2,建立第三向量M3;S6、根据t1、t0,建立第四向量M4;S7、根据初始向量M0、第一向量M1、第二向量M2、第三向量M3和第四向量M4,通过向量乘法,得到向量M,其中,初始向量M0=(1,1,1,1,1,1,1);S8、判断向量M是否等于初始向量M0,若是,则跳转至步骤S9,若否,则跳转至步骤S10;S9、得出并保存“该等待校对的藏文音节符合藏文音节文法”的结论,结束;S10、得出并保存“该等待校对的藏文音节不符合藏文音节文法”的结论,结束。2.根据权利要求1所述的基于文法向量乘法的藏文音节校对方法,其特征在于,所述步骤S3包括以下分步骤:S31、对第一向量M1的全部元素赋1;S32、判断元素t5、t6是否在集合S
R1
中,若是,则无需再赋值,若否,则赋值第一向量M1的第一和第三个元素为0,其中,第一和第三个元素为0...

【专利技术属性】
技术研发人员:安见才让孙琦龙
申请(专利权)人:青海民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1