发明授权
- 专利标题: 一种基于互索引结构的文本查询方法
- 专利标题(英): Method for querying texts based on mutual index structure
-
申请号: CN201210071778.2申请日: 2012-03-16
-
公开(公告)号: CN102637204B公开(公告)日: 2014-04-16
- 发明人: 吴明晖 , 金苍宏 , 应晶 , 陈天洲 , 刘源清 , 朱凡微
- 申请人: 浙江大学城市学院
- 申请人地址: 浙江省杭州市拱墅区湖州街51号
- 专利权人: 浙江大学城市学院
- 当前专利权人: 浙江大学城市学院
- 当前专利权人地址: 浙江省杭州市拱墅区湖州街51号
- 代理机构: 杭州宇信知识产权代理事务所
- 代理商 张宇娟
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明实施例公开了一种基于互索引结构的文本查询方法,包括以下步骤:对需要索引的文本文件进行分割操作,获得含有固定单词数的文本块数组;构建倒排索引结构;计算每一文本块的特征值,并将特征值保存在特征索引文件中;在每个文本块的末尾,使用变长算法给出一个指针地址长度,根据所述指针地址长度获得指针值,指针值为特征索引文件中该文本块所对应的特征值地址;根据文本文件中特定文本块的特征值索引,找到文本块特征值;读取文本块特征值,将所述文本块特征值与查询单词的特征值进行比较,判断所述查询单词是否包含在所述文本块中。本发明用于加快短语匹配的速度,减少I/O操作,减少计算复杂度,提高查询效率和匹配准确率。
公开/授权文献
- CN102637204A 一种基于互索引结构的文本查询方法 公开/授权日:2012-08-15