-
公开(公告)号:CN101882148B
公开(公告)日:2012-01-04
申请号:CN201010189851.7
申请日:2010-05-24
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及自动识别网页中维吾尔文的方法和系统,方法包括:步骤1,确定作为识别特征的n元组中n的取值,使用的每种语言,统计语言的各个n元组在使用语言的训练网页中的出现频率,为一个权重值,并且取n元组在预设标准编码中的有效位生成权重值对应的特征ID;步骤2,统计待识别网页中每个n元组的出现次数,取n元组在预设标准编码中有效位生成出现次数对应的识别ID,对于训练网页使用的每种语言,将特征ID的权重值和与特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别网页对应于语言的分值,待识别网页使用的语言为最高分值对应的语言。本发明能够提高识别的准确性。
-
公开(公告)号:CN101882148A
公开(公告)日:2010-11-10
申请号:CN201010189851.7
申请日:2010-05-24
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及自动识别网页中维吾尔文的方法和系统,方法包括:步骤1,确定作为识别特征的n元组中n的取值,使用的每种语言,统计语言的各个n元组在使用语言的训练网页中的出现频率,为一个权重值,并且取n元组在预设标准编码中的有效位生成权重值对应的特征ID;步骤2,统计待识别网页中每个n元组的出现次数,取n元组在预设标准编码中有效位生成出现次数对应的识别ID,对于训练网页使用的每种语言,将特征ID的权重值和与特征ID相同的识别ID的出现次数相乘,叠加乘积,所得和值为待识别网页对应于语言的分值,待识别网页使用的语言为最高分值对应的语言。本发明能够提高识别的准确性。
-