-
公开(公告)号:CN102955860A
公开(公告)日:2013-03-06
申请号:CN201210492445.7
申请日:2012-11-27
申请人: 山东大学 , 山东英佰德信息科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于模式图的关键字查询改进方法,它包括以下步骤:步骤1.IR引擎模块借助于索引从数据库表导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络,并把候选网络作为输出;步骤2.查询日志挖掘模块使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树;步骤3.利用树编辑距离来定义步骤1生成的候选网络与步骤2挖掘得到的频繁模式树的相似度,生成频繁模式树的相似度;步骤4.跟据步骤1生成的候选网络与步骤3生成的频繁子树的相似度对生成的候选网络进行排序并优先求解排位靠前的候选网络,以此来改进查询的质量和效率。
-
公开(公告)号:CN102955860B
公开(公告)日:2015-10-28
申请号:CN201210492445.7
申请日:2012-11-27
申请人: 山东大学 , 山东英佰德信息科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于模式图的关键字查询改进方法,它包括以下步骤:步骤1.IR引擎模块借助于索引从数据库表导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络,并把候选网络作为输出;步骤2.查询日志挖掘模块使用已有的树挖掘算法来对用户的查询日志进行挖掘,以获取用户偏好的频繁模式树;步骤3.利用树编辑距离来定义步骤1生成的候选网络与步骤2挖掘得到的频繁模式树的相似度,生成频繁模式树的相似度;步骤4、跟据步骤1生成的候选网络与步骤3生成的频繁子树的相似度对生成的候选网络进行排序并优先求解排位靠前的候选网络,以此来改进查询的质量和效率。
-
公开(公告)号:CN102289502A
公开(公告)日:2011-12-21
申请号:CN201110246903.4
申请日:2011-08-25
申请人: 山东英佰德信息科技有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于高频字图模型的DeepWeb数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为DeepWeb动态页面;步骤5:获取相应的DeepWeb页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7;步骤7:选择新数据获取率最高的一个汉字wi用作查询关键字,继续执行步骤3-5获取wi提交之后返回的查询结果,再转步骤7选择下一个查询关键字,直至数据爬取结束。
-
公开(公告)号:CN117909363A
公开(公告)日:2024-04-19
申请号:CN202410069783.2
申请日:2024-01-17
申请人: 山东大学
IPC分类号: G06F16/2453 , G06F18/214 , G06F16/242 , G06F18/213 , G06F18/241
摘要: 本发明提出了一种基于动态样本推荐的基数估计方法及系统,涉及数据库基数估计领域,对数据库中的表以不同采样方法不同采样比例进行采样,采样得到的样本组成样本集;分别对样本集中的样本、数据库中的表和待估计的SQL语句进行编码,得到样本的特征、表的特征和SQL语句的特征;将上述三个特征输入到训练好的样本推荐模型中,从样本集中推荐动态样本,得到最优样本集;在最优样本集上运行SQL语句,将得到的基数结果作为SQL语句在整体数据上的基数估计;本发明结合样本表示整体数据分布的特性和机器学习建模预测的方法,构建样本推荐模型,为每个SQL语句推荐合适的样本集,使得采样成本和基数估计的准确性都得到了改善。
-
公开(公告)号:CN116150189A
公开(公告)日:2023-05-23
申请号:CN202310102690.0
申请日:2023-02-06
申请人: 山东大学
IPC分类号: G06F16/2453 , G06F16/242 , G06F16/2455 , G06N3/0464
摘要: 本发明属于连接基数估计领域,提供了一种自适应多表连接基数估计的方法和系统。其中,自适应多表连接基数估计的方法包括接收输入的查询语句并分析其包含关系及多表连接的连接关系;将查询语句的分析结果进行特征向量化,再基于基数估计模型预测出查询语句的基数;将查询语句转化为数据库查询提示,通过该提示操作的查询优化器,执行查询语句,得出真实基数值;将查询语句的分析结果对应的特征向量及真实基数值构成训练样本,并对基数估计模型再训练,以学习多表联合查询相关性,用于下次连接基数的估计。
-
公开(公告)号:CN111161535B
公开(公告)日:2021-03-02
申请号:CN201911339022.X
申请日:2019-12-23
申请人: 山东大学
IPC分类号: G08G1/01
摘要: 本发明公开了基于注意力机制的图神经网络交通流量预测方法及系统,获取待预测的城市交通流量数据;根据道路连接关系构建路网图;对待预测的城市交通流量数据进行预处理;将路网图和预处理后的结果,输入到预训练的基于注意力机制的神经网络中,最后输出城市交通流量的预测结果。根据路网信息对道路和卡口进行编码,并根据道路上下游关系建立路网图结构,统计卡口不同时间维度下的过车数据,汇总形成路网车流量数据表;构建有多层注意力模块堆叠组成的图神经网络,使用时序注意力机制和图注意力网络对整个路网中车流量进行建模,预测指定卡口未来的车流量情况。
-
公开(公告)号:CN111161535A
公开(公告)日:2020-05-15
申请号:CN201911339022.X
申请日:2019-12-23
申请人: 山东大学
IPC分类号: G08G1/01
摘要: 本发明公开了基于注意力机制的图神经网络交通流量预测方法及系统,获取待预测的城市交通流量数据;根据道路连接关系构建路网图;对待预测的城市交通流量数据进行预处理;将路网图和预处理后的结果,输入到预训练的基于注意力机制的神经网络中,最后输出城市交通流量的预测结果。根据路网信息对道路和卡口进行编码,并根据道路上下游关系建立路网图结构,统计卡口不同时间维度下的过车数据,汇总形成路网车流量数据表;构建有多层注意力模块堆叠组成的图神经网络,使用时序注意力机制和图注意力网络对整个路网中车流量进行建模,预测指定卡口未来的车流量情况。
-
公开(公告)号:CN102360368A
公开(公告)日:2012-02-22
申请号:CN201110301775.9
申请日:2011-10-09
申请人: 山东大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于抽取模板可视化定制的Web数据抽取方法,它包括以下步骤A.模板页面预处理;B.抽取模板可视化定制;C.对页面批量抽取频率进行设置;D.页面批量抽取。所述步骤A模板页面预处理,即模板页面源代码的转换及展示;所述步骤B抽取模板可视化定制是指在用户界面上提供拖拽选中功能,由用户自行设定模板页面上的属性标签和数据值与领域模型中属性的对应关系,建立抽取模板。所述步骤C页面批量抽取频率设置按每隔8小时对爬取获得的HTML页面进行批量抽取一次。所述步骤D页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽取,将其中的半结构化数据转合成结构化数据保存至本地数据库。
-
公开(公告)号:CN114758202B
公开(公告)日:2024-05-24
申请号:CN202210338616.4
申请日:2022-04-01
申请人: 山东大学
摘要: 本发明公开了一种基于语义感知特征增强的短波红外舰船检测方法及系统,包括:获取海上短波红外图像;得到增强后的短波红外全局特征和实例特征;将短波红外实例特征嵌入到对应的隐语义空间获得其隐语义表示,将短波红外图像的实例特征和其隐语义表示共同输入训练好的第二生成对抗网络,得到增强后的短波红外实例特征;将增强后的短波红外全局特征和增强后的短波红外实例特征进行合并,合并后的特征输入至目标检测头,得到短波红外舰船的检测结果。本发明通过语义感知,能够更加深入地挖掘短波红外实例特征的空间信息和语义信息,特征合并模块充分考虑了短波红外全局特征和实例特征的空间关系,合成更好的特征表示。
-
公开(公告)号:CN117909845A
公开(公告)日:2024-04-19
申请号:CN202410068579.9
申请日:2024-01-17
申请人: 山东大学
IPC分类号: G06F18/2411 , G06F18/2415 , G06F18/214 , G06F18/15 , G06F18/25 , G06N3/0464 , G06N3/0455
摘要: 本发明提出了一种结合直方图与元学习的基数估计方法及系统,涉及数据库查询优化的基数估计领域,对待估计的SQL语句进行特征提取和自适应编码,得到特征向量;将特征向量输入到训练好的多元决策器,输出直方图、元学习两种方法的适配概率,选择适配概率高的方法进行基数估计,得到最终的基数估计值;本发明将直方图与元学习方法结合,融合直方图方法“估得快”与学习方法“估得准”的优点,从精度、性能两方面综合优化基数估计方法;同时利用元学习方法训练基数估计器模型,将其与数据库基数估计方法结合,创新元学习应用场景的同时,也使得基数估计器能够适应不同的查询场景,提高估计器的通用性,节省训练的时间成本。
-
-
-
-
-
-
-
-
-