-
公开(公告)号:CN102955860A
公开(公告)日:2013-03-06
申请号:CN201210492445.7
申请日:2012-11-27
申请人: 山东大学 , 山东英佰德信息科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于模式图的关键字查询改进方法,它包括以下步骤:步骤1.IR引擎模块借助于索引从数据库表导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络,并把候选网络作为输出;步骤2.查询日志挖掘模块使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树;步骤3.利用树编辑距离来定义步骤1生成的候选网络与步骤2挖掘得到的频繁模式树的相似度,生成频繁模式树的相似度;步骤4.跟据步骤1生成的候选网络与步骤3生成的频繁子树的相似度对生成的候选网络进行排序并优先求解排位靠前的候选网络,以此来改进查询的质量和效率。
-
公开(公告)号:CN102955860B
公开(公告)日:2015-10-28
申请号:CN201210492445.7
申请日:2012-11-27
申请人: 山东大学 , 山东英佰德信息科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于模式图的关键字查询改进方法,它包括以下步骤:步骤1.IR引擎模块借助于索引从数据库表导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络,并把候选网络作为输出;步骤2.查询日志挖掘模块使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树;步骤3.利用树编辑距离来定义步骤1生成的候选网络与步骤2挖掘得到的频繁模式树的相似度,生成频繁模式树的相似度;步骤4、跟据步骤1生成的候选网络与步骤3生成的频繁子树的相似度对生成的候选网络进行排序并优先求解排位靠前的候选网络,以此来改进查询的质量和效率。
-
公开(公告)号:CN102289502A
公开(公告)日:2011-12-21
申请号:CN201110246903.4
申请日:2011-08-25
申请人: 山东英佰德信息科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于高频字图模型的DeepWeb数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为DeepWeb动态页面;步骤5:获取相应的DeepWeb页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7;步骤7:选择新数据获取率最高的一个汉字wi用作查询关键字,继续执行步骤3-5获取wi提交之后返回的查询结果,再转步骤7选择下一个查询关键字,直至数据爬取结束。
-
-