创建和使用紧凑语言数据的系统和方法
摘要:
提出了一种创建和使用紧凑语言数据的系统和方法。计算出现在语料中的单词的频率。将单词中的每个惟一字符映射到字符索引,并以字符索引替代单词中的字符。将字符序列映射到置换索引,并以置换索引替代单词中的字符序列。按照公共前缀,将单词分组,并将每个前缀映射到针对以该前缀开头的单词组的位置信息。
0/0