基于Word2Vec的主题爬虫系统和方法

    公开(公告)号:CN108681571A

    公开(公告)日:2018-10-19

    申请号:CN201810422427.9

    申请日:2018-05-05

    Applicant: 吉林大学

    Abstract: 基于Word2Vec的主题爬虫系统和方法。本发明公开了一种基于Word2Vec的主题爬虫系统抓取信息的方法,具体步骤包括:步骤1:通过种子配置模块上传种子链接,然后利用关键词模块进行关键词的交互与筛选,之后启动爬虫;步骤2:通过下载模块下载待抓取的URL链接,下载后利用解析模块对网页内容进行解析,包括提取网页正文,全部链接,全部代码,网页类型;步骤3:根据评分模块,利用解析的内容进行页面的主题相关度计算,并给出各个子链接的相关性评分预测。本发明让关键词集合之间通过Word2Vec训练出的向量进行相关度比较,有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。

    基于Word2Vec的主题爬虫系统和方法

    公开(公告)号:CN108681571B

    公开(公告)日:2024-02-27

    申请号:CN201810422427.9

    申请日:2018-05-05

    Applicant: 吉林大学

    Abstract: 基于Word2Vec的主题爬虫系统和方法。本发明公开了一种基于Word2Vec的主题爬虫系统抓取信息的方法,具体步骤包括:步骤1:通过种子配置模块上传种子链接,然后利用关键词模块进行关键词的交互与筛选,之后启动爬虫;步骤2:通过下载模块下载待抓取的URL链接,下载后利用解析模块对网页内容进行解析,包括提取网页正文,全部链接,全部代码,网页类型;步骤3:根据评分模块,利用解析的内容进行页面的主题相关度计算,并给出各个子链接的相关性评分预测。本发明让关键词集合之间通过Word2Vec训练出的向量进行相关度比较,有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。(56)对比文件Chen X等.A focused crawler withcontent and link analysis.IEEE.2008,677-680.

    一种面向汽车领域知识图谱的构建方法及系统

    公开(公告)号:CN110245239A

    公开(公告)日:2019-09-17

    申请号:CN201910395007.0

    申请日:2019-05-13

    Applicant: 吉林大学

    Abstract: 本发明公开了一种面向汽车领域知识图谱的构建方法及系统。该方法包括:采集大量互联网中汽车领域相关数据;根据预设分类算法,对所述相关数据进行分类;将分类处理后所述相关数据的文本,进行指代消解处理;根据依存分析法抽取三元组数据;所述三元组数据可视化处理,构建汽车领域知识图谱。该方法构建的汽车领域的知识图谱,数据可视化程度高,方便用户查询汽车的相关信息,更加简便快捷,提高用户体验。

Patent Agency Ranking