一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287272B

    公开(公告)日:2023-05-23

    申请号:CN202011161424.8

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287273A

    公开(公告)日:2021-01-29

    申请号:CN202011161426.7

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。

    基于自适应权重的语义检索模型融合方法及系统

    公开(公告)号:CN117076598A

    公开(公告)日:2023-11-17

    申请号:CN202310518172.7

    申请日:2023-05-09

    Abstract: 本发明提出一种基于自适应权重的语义检索模型融合方法,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息、该稀疏检索结果和该稠密检索结果通过该权重预测模型获取融合权重;以该融合权重、该稀疏排序分值和该稠密排序分值,生成融合排序分值;根据该融合排序分值,将该稀疏检索结果和该稠密检索结果进行排序,生成最终检索结果。本发明还提出一种基于自适应权重的语义检索模型融合系统,以及一种用于基于自适应权重的语义检索模型融合的数据处理装置。

    大规模网络数据的感知与获取方法和系统

    公开(公告)号:CN109815382A

    公开(公告)日:2019-05-28

    申请号:CN201811634238.4

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。

    大规模网络数据的感知与获取方法和系统

    公开(公告)号:CN109815382B

    公开(公告)日:2022-07-12

    申请号:CN201811634238.4

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。

    一种大数据场景下的数据分割方法

    公开(公告)号:CN114491157A

    公开(公告)日:2022-05-13

    申请号:CN202210132296.7

    申请日:2022-02-14

    Abstract: 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区内数据条数处于容忍范围内的右端点或者越过容忍范围;在指数型调整导致区内数据条数越过容忍范围时,以当前的探测区间的右端点以及前一个探测区间的右端点构成的区间为查找范围,通过二分查找法确定使得区内数据条数处于容忍范围内的右端点;根据探测区间的左端点以及使得区内数据条数处于容忍范围内的右端点确定的分割区间对数据集合进行分割。

    一种文本聚合方法以及文本推荐方法

    公开(公告)号:CN114443820A

    公开(公告)日:2022-05-06

    申请号:CN202210177000.3

    申请日:2022-02-25

    Abstract: 本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。

Patent Agency Ranking