-
公开(公告)号:CN109902216A
公开(公告)日:2019-06-18
申请号:CN201910158711.4
申请日:2019-03-04
Applicant: 桂林电子科技大学
IPC: G06F16/951 , G06F16/332 , G06Q50/00
Abstract: 本发明公开了一种基于社交网络的数据采集与分析方法,包括以下步骤:(1)以数据采集模块采用Python中的Scrapy框架,构建微博爬虫系统,使用分布式爬虫算法获取微博社交网络中用户数据;(2)数据存储模块将用户数据保存到JSON格式和NoSQL类型的MongoDB数据库中;(3)数据处理模块对用户原创内容的进行语义分析,进行用户的主题提取,对大量用户数据进行多维度挖掘分析、判别利用;(4)数据分析模块研究实现缺失属性信息推断算法,获取较全面的用户信息,实现社交网络用户画像。本发明通过大数据挖掘,获取有价值的信息,降低了大数据分析的成本。
-
公开(公告)号:CN109949175B
公开(公告)日:2023-05-05
申请号:CN201910233096.9
申请日:2019-03-26
Applicant: 桂林电子科技大学
IPC: G06Q50/00 , G06F16/9535
Abstract: 本发明公开了一种基于协同过滤和相似性度量的用户属性推断方法,先使用Python中的Scrapy框架,构建一个微博爬虫系统,使用分布式爬虫算法来自动收集微博用户帐户信息;然后清除无效数据,使用NLP预处理数据;然后使用可视化分析工具Tableau来分析收集到的用户数据;再通过遵循三步法对现有的用户账号数据进行挖掘分析,使得能根据用户现有属性信息,推断用户未知的属性值;最后将模型与岭回归模型,决策树模型和多元线性回归模型进行比较,获得预测结果情况。本发明推断未知属性准确率更高。
-
公开(公告)号:CN109949175A
公开(公告)日:2019-06-28
申请号:CN201910233096.9
申请日:2019-03-26
Applicant: 桂林电子科技大学
IPC: G06Q50/00 , G06F16/9535
Abstract: 本发明公开了一种基于协同过滤和相似性度量的用户属性推断方法,先使用Python中的Scrapy框架,构建一个微博爬虫系统,使用分布式爬虫算法来自动收集微博用户帐户信息;然后清除无效数据,使用NLP预处理数据;然后使用可视化分析工具Tableau来分析收集到的用户数据;再通过遵循三步法对现有的用户账号数据进行挖掘分析,使得能根据用户现有属性信息,推断用户未知的属性值;最后将模型与岭回归模型,决策树模型和多元线性回归模型进行比较,获得预测结果情况。本发明推断未知属性准确率更高。
-
-