-
公开(公告)号:CN106776746A
公开(公告)日:2017-05-31
申请号:CN201611029689.6
申请日:2016-11-14
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/328
Abstract: 本发明提供了一种全文索引数据的创建方法及装置,所述方法包括:并行对文档进行分词,记录单词位置和单词标记;按照用于记录单词位置和单词标记的存储数据块顺序对所述分词的结果依次进行封装,生成封装块和封装块的索引,所述索引包括:词编号及数量;根据所述索引对单词进行排序;对所述封装块进行拆包,对相同的单词进行归类。可以有效利用计算资源,减少分词时间,并可对并行分词结果排序处理,准确的得到索引数据。