-
公开(公告)号:CN114741515B
公开(公告)日:2024-07-26
申请号:CN202210439507.1
申请日:2022-04-25
申请人: 西安交通大学
IPC分类号: G06F16/35 , G06Q50/00 , G06F18/23213 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/08
摘要: 本发明公开一种基于图生成的社交网络用户属性预测方法及系统,包括:采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;划分用户文本特征图和用户社交关系图,获得测试集和训练集;基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图为训练目标,得到最优化的社交网络图生成模型;基于最优化的社交网络图生成模型,对用户进行属性预测,得到社交网络用户属性标签。本发明实现对社交网络用户的属性预测,提高预测准确率。
-
公开(公告)号:CN112307759B
公开(公告)日:2024-04-12
申请号:CN202011236593.3
申请日:2020-11-09
申请人: 西安交通大学
IPC分类号: G06F40/289 , G06F40/284 , G06F40/242 , G06F40/216 , G06F40/126 , G06F16/951 , G06F16/955 , G06Q50/00
摘要: 本发明涉及一种面向社交网络不规则短文本的粤语分词方法,属于自然语言处理领域。本发明的面向粤语语境的短文本清洗和分词的方法,具体包括四个功能模块,分别为支持用户自定义的短文本清洗模块、粤语联合语料库构建模块、短文本扫描和初步切分模块、未登录词处理及分词结果输出模块。本发明解决了现有技术中没有考虑到面向社交网络不规则短文本的粤语分词方法,提出了满足用户自身不同应用场景的个性化数据清洗模型,建立了面向社交网络的粤语联合语料库,设计了基于构建的联合语料库的分词模型,同时综合考虑了文本中出现未登录词的处理方案,提出对应的综合处理模型,最终在连登论坛平台爬取的短文本数据中验证,分词准确率达87%。
-
公开(公告)号:CN114741515A
公开(公告)日:2022-07-12
申请号:CN202210439507.1
申请日:2022-04-25
申请人: 西安交通大学
摘要: 本发明公开一种基于图生成的社交网络用户属性预测方法及系统,包括:采集社交网络用户发布短文本中话题数据,并对话题数据进行处理,获取用户的文本特征相似度,并生成用户文本特征图;基于训练数据中的用户属性标签和构造规则,构建训练数据用户属性图;划分用户文本特征图和用户社交关系图,获得测试集和训练集;基于图卷积神经网络和变分自动编码器,构造社交网络图生成模型;基于训练集和测试集对社交网络图生成模型进行训练测试,以训练数据用户属性图为训练目标,得到最优化的社交网络图生成模型;基于最优化的社交网络图生成模型,对用户进行属性预测,得到社交网络用户属性标签。本发明实现对社交网络用户的属性预测,提高预测准确率。
-
公开(公告)号:CN112307759A
公开(公告)日:2021-02-02
申请号:CN202011236593.3
申请日:2020-11-09
申请人: 西安交通大学
IPC分类号: G06F40/289 , G06F40/284 , G06F40/242 , G06F40/216 , G06F40/126 , G06F16/951 , G06F16/955 , G06Q50/00
摘要: 本发明涉及一种面向社交网络不规则短文本的粤语分词方法,属于自然语言处理领域。本发明的面向粤语语境的短文本清洗和分词的方法,具体包括四个功能模块,分别为支持用户自定义的短文本清洗模块、粤语联合语料库构建模块、短文本扫描和初步切分模块、未登录词处理及分词结果输出模块。本发明解决了现有技术中没有考虑到面向社交网络不规则短文本的粤语分词方法,提出了满足用户自身不同应用场景的个性化数据清洗模型,建立了面向社交网络的粤语联合语料库,设计了基于构建的联合语料库的分词模型,同时综合考虑了文本中出现未登录词的处理方案,提出对应的综合处理模型,最终在连登论坛平台爬取的短文本数据中验证,分词准确率达87%。
-
-
-