-
公开(公告)号:CN118916564A
公开(公告)日:2024-11-08
申请号:CN202411045093.X
申请日:2024-07-31
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/958
Abstract: 本申请提供一种新闻站点的解析方法和装置,该方法包括:获取新闻网站的站点列表,站点列表中包括多个链接;根据多个链接的链接结构,从多个链接中提取新闻链接;根据新闻链接的html页面源码以及html页面源码中各html节点的属性信息,提取新闻链接的新闻数据,新闻数据包括新闻正文、新闻发布时间和新闻标题中的至少一项。由于新闻链接的链接结构与其他链接的链接结构不同,因此,通过分析新闻站点中多个链接的链接结构,可以从新闻站点中有效提取得到新闻链接;由于可以根据新闻链接的html页面源码和html页面源码中各html节点的属性信息对新闻链接进行分析,因此,可以有效提取得到新闻数据,提高新闻数据的解析准确率。
-
公开(公告)号:CN118152671A
公开(公告)日:2024-06-07
申请号:CN202410010165.0
申请日:2024-01-02
Applicant: 北京百分点科技集团股份有限公司
IPC: G06F16/9536
Abstract: 本申请实施例提供一种舆情信息采集入口的确定方法、装置、设备及存储介质。在本申请实施例中,所述方法包括:获取基于搜索条件在社交媒体中命中的目标信息;所述目标信息,包括:舆情信息和/或与所述舆情信息关联的社交信息;根据预先设置的不同信息类型与采集入口挖掘策略的对应关系,以及所述目标信息的信息类型,确定与所述目标信息的信息类型相匹配的采集入口挖掘策略;采用所述采集入口挖掘策略对所述目标信息进行信息挖掘,以获得与所述目标信息相关联的社交媒体账号,作为舆情信息采集入口。
-