-
公开(公告)号:CN111538836B
公开(公告)日:2024-02-02
申请号:CN202010321249.8
申请日:2020-04-22
Applicant: 哈尔滨工业大学(威海) , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/951 , G06F40/284 , G06F18/2431
Abstract: 本发明涉及一种识别文本类广告中金融广告的方法,其解决了现有广告分析模型无法有效识别金融广告的技术问题,其包括以下步骤:(1)从数据库中获取爬取到的广告文本数据;(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。本发明可广泛应于在文本类广告中识别金融广告的场合。
-
公开(公告)号:CN111488509A
公开(公告)日:2020-08-04
申请号:CN202010277162.5
申请日:2020-04-10
Applicant: 国家计算机网络与信息安全管理中心 , 哈尔滨工业大学(威海)
IPC: G06F16/951 , G06F16/955 , G06F16/9535 , G06Q30/02
Abstract: 本发明提供一种获取互联网金融广告的方法,包括以下步骤:(1)获取金融广告爬取网站及其链接;(2)打开步骤(1)中的网站和链接,获取网站中金融广告的URL;(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表;(4)根据步骤(3)编写的过滤规则列表,将过滤规则列表保存进数据库;(5)根据步骤(1)中的网站,爬取网站内容,提取相应的url、图片src属性,然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告;其解决了站内广告不规则站点无法使用统一的Xpath规则获取站内的所有广告内容的技术问题。本发明可广泛应用于获取网站内部及其子网站里的广告内容。
-
公开(公告)号:CN111538836A
公开(公告)日:2020-08-14
申请号:CN202010321249.8
申请日:2020-04-22
Applicant: 哈尔滨工业大学(威海) , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/951 , G06F40/284 , G06K9/62
Abstract: 本发明涉及一种识别文本类广告中金融广告的方法,其解决了现有广告分析模型无法有效识别金融广告的技术问题,其包括以下步骤:(1)从数据库中获取爬取到的广告文本数据;(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。本发明可广泛应于在文本类广告中识别金融广告的场合。
-
-