一种实现高命中率的逐词比对方法

    公开(公告)号:WO2012071922A1

    公开(公告)日:2012-06-07

    申请号:PCT/CN2011/079495

    申请日:2011-09-09

    CPC classification number: G06F17/2809

    Abstract: 一种中英逐词比对方法,该方法包括以下步骤:1)多段英文字符串单元组成英文字符串,多段中文字符串单元组成中文字符串;2)对英文字符串分词,得到长度为分词长度的英文分词结果集:3)判断英文分词结果集中一项是否存在于关键词字符列表中,否则结束,是则进至步骤4);4)查找中英字典,得到对应中文ID序列;5)判断是否存在于关键词字符列表中,是则进至步骤6);6)查找中文ID序列的变形序列中文关联词序列;7)判断变形序列中文关联词序列是否存在于关键词字符列表中,是则进至步骤8);8)在中文中对变形序列中文关联词序列进行字符串匹配,如果匹配则进行步骤9);9)对英中添加已经命中标识标记,从中文字符串中删除变形序列中文关联词序列。该方法通过解决比对中的关键域问题,实现高命中率的逐词比对。

Patent Agency Ranking