-
公开(公告)号:CN104102707B
公开(公告)日:2016-03-30
申请号:CN201410328449.0
申请日:2014-07-10
Applicant: 西安交通大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向MapReduce框架的地理归属信息查询方法,包括以下步骤:设计IP地址转换地理归属信息编码表TIP,IP地址转换地理归属信息编码表TIP采用一维数组实现,每个数组元素是一个整数G,数组下标x是通过IP地址转换得到的整数;设计地理归属信息编码详情表,具体包括国家编码详情表TCODE_COUNTRY、省/区编码详情表TCODE_REGION、城市编码详情表TCODE_CITY以及运营商编码详情表TCODE_ISP;利用IP地址转换地理归属信息编码表TIP和4个地理归属信息编码详情表,查询IP地址的对应地理归属信息编码或详情,利用位运算和寻址操作加快查询的速度;构建基于Web面向MapReduce框架的查询服务,为并发计算环境的海量数据处理提供支持。本发明具有查询过程速度快,占用存储空间少的优点。
-
公开(公告)号:CN104572934B
公开(公告)日:2016-03-30
申请号:CN201410840805.7
申请日:2014-12-29
Applicant: 西安交通大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于DOM的网页关键内容抽取方法,包括以下步骤:根据来自同一网站的模式相同的网页URL1和URL2,下载网页的HTML文本内容,分别保存为HTML1和HTML2,采用DOM树解析技术,将HTML1和HTML2转化为DOM树,记为TREE1和TREE2;定义用于识别TREE1和TREE2中的关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce;基于差异度定义,设计差异度计算方法,计算TREE1中各节点的差异度,将差异度大于给定差异度阈值e的节点的路径加入Lkeycontent;设计算法对Lkeycontent进行约简,得到Lreduce;基于Lreduce将网页中的关键内容返回给用户。本发明能够在网页关键内容的位置及具体内容均未知的情况下对关键内容进行抽取,具有抽取内容完整、可读性强,抽取信息量大,以及抽取效率高的优点。
-
公开(公告)号:CN104102707A
公开(公告)日:2014-10-15
申请号:CN201410328449.0
申请日:2014-07-10
Applicant: 西安交通大学
IPC: G06F17/30
CPC classification number: G06F17/30241
Abstract: 本发明公开了一种面向MapReduce框架的地理归属信息查询方法,包括以下步骤:设计IP地址转换地理归属信息编码表TIP,IP地址转换地理归属信息编码表TIP采用一维数组实现,每个数组元素是一个整数G,数组下标x是通过IP地址转换得到的整数;设计地理归属信息编码详情表,具体包括国家编码详情表TCODE_COUNTRY、省/区编码详情表TCODE_REGION、城市编码详情表TCODE_CITY以及运营商编码详情表TCODE_ISP;利用IP地址转换地理归属信息编码表TIP和4个地理归属信息编码详情表,查询IP地址的对应地理归属信息编码或详情,利用位运算和寻址操作加快查询的速度;构建基于Web面向MapReduce框架的查询服务,为并发计算环境的海量数据处理提供支持。本发明具有查询过程速度快,占用存储空间少的优点。
-
公开(公告)号:CN108197424A
公开(公告)日:2018-06-22
申请号:CN201810026932.1
申请日:2018-01-11
Applicant: 西安交通大学
IPC: G06F19/00
CPC classification number: G16Z99/00
Abstract: 本发明展示大规模网络教育中网络学习行为幂律分布概率建模方法,1.得出服从幂律分布的网络学习行为B的初始影响因素集合Fori;2.将相关系数大于给定相关系数阈值r的因素加入候选影响因素集合Fcon;3.将与网络学习行为B之间具有因果关系的因素加入最终影响因素集合F;4.提出网络学习行为幂律分布的概率模型假设;5.建立学习者在具体某天进行学习活动的概率模型;6.对所有学习者在课程周期内的学习过程进行模拟。本发明建立了通用的网络学习行为概率模型以及学习过程生成算法,适用于多种网络学习行为,可以基于模型对学习者在课程后续阶段的学习表现进行预测,从而对教学计划进行动态调整,及时做出补救措施。
-
公开(公告)号:CN104572934A
公开(公告)日:2015-04-29
申请号:CN201410840805.7
申请日:2014-12-29
Applicant: 西安交通大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/30876
Abstract: 本发明公开了一种基于DOM的网页关键内容抽取方法,包括以下步骤:根据来自同一网站的模式相同的网页URL1和URL2,下载网页的HTML文本内容,分别保存为HTML1和HTML2,采用DOM树解析技术,将HTML1和HTML2转化为DOM树,记为TREE1和TREE2;定义用于识别TREE1和TREE2中的关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce;基于差异度定义,设计差异度计算方法,计算TREE1中各节点的差异度,将差异度大于给定差异度阈值e的节点的路径加入Lkeycontent;设计算法对Lkeycontent进行约简,得到Lreduce;基于Lreduce将网页中的关键内容返回给用户。本发明能够在网页关键内容的位置及具体内容均未知的情况下对关键内容进行抽取,具有抽取内容完整、可读性强,抽取信息量大,以及抽取效率高的优点。
-
-
-
-