-
公开(公告)号:CN118708795A
公开(公告)日:2024-09-27
申请号:CN202410729579.9
申请日:2024-06-06
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/953 , G06F16/906
Abstract: 本发明公开了基于社交应用采集资源管理和检测使用的系统,包括:采集资源调度装置,其用于存储、初始化和分配采集资源;数据采集调度装置,其用于采集资源的申请与使用;采集资源状态收集装置,其用于存储使用完成的采集资源状态,并对采集资源进行分类;异常采集资源处理装置,其用于对异常采集资源进行删除、刷新和验证操作,并将刷新和验证后的采集资源更新到采集资源调度装置中;采集资源检测装置,其用于对采集资源调度装置中的采集资源进行可用性检测,并将不可用资源更新到采集资源状态收集装置中;以及,基于社交应用采集资源管理和检测使用的方法。本发明具有能确保采集资源可以得到最大化的利用,保障数据采集长期有效的完成等优点。
-
公开(公告)号:CN110990711B
公开(公告)日:2023-05-12
申请号:CN201910392858.X
申请日:2019-05-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/9536 , G06F16/958 , G06Q50/00 , G06N20/00
Abstract: 本发明公开了基于机器学习的微信公众号推荐算法,包括:为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;根据目标用户的历史行为确定目标用户的喜好标签;从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。本发明还提供了基于机器学习的微信公众号推荐系统。本发明能够根据分析用户喜好,进而自动推荐合适的公众号,避免用户受各种良莠不齐的公众号干扰,避免花费过多时间用于挑选公众号文章。
-
公开(公告)号:CN108628828B
公开(公告)日:2022-04-01
申请号:CN201810347840.3
申请日:2018-04-18
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F40/30 , G06F40/289 , G06F16/35
Abstract: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self‑attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。
-
公开(公告)号:CN110990711A
公开(公告)日:2020-04-10
申请号:CN201910392858.X
申请日:2019-05-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/9536 , G06F16/958 , G06Q50/00 , G06N20/00
Abstract: 本发明公开了基于机器学习的微信公众号推荐算法,包括:为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;根据目标用户的历史行为确定目标用户的喜好标签;从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户。本发明还提供了基于机器学习的微信公众号推荐系统。本发明能够根据分析用户喜好,进而自动推荐合适的公众号,避免用户受各种良莠不齐的公众号干扰,避免花费过多时间用于挑选公众号文章。
-
公开(公告)号:CN108880980A
公开(公告)日:2018-11-23
申请号:CN201810403059.3
申请日:2018-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
Abstract: 本发明公开一种基于微信群信息的数据分析系统,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块;对象存储模块;关键词提取模块;群消息库模块。本发明具有能将采集到的微信群消息数据进行分析和统计,最后直观的展示出来,可以有效、直观的监测微信群的优点。
-
公开(公告)号:CN108846017A
公开(公告)日:2018-11-20
申请号:CN201810426304.2
申请日:2018-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
Abstract: 本发明一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,包括如下步骤:S1.进行Word Embedding的字级别语义特征表示;S2.构建注意力权重的Bi-GRU字级别的句子特征编码模型;S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型;S4.使用分层Softmax实现端到端分类实现。本发明方法可降低向量的维度,且有效地防止特征过于稀疏问题。优化了最终的输出向量,增强了模型特征编码有效性。避免维度过高造成的模型难以训练问题,又提供了额外的语义信息。可灵活组合特征抽取模型和各种常见分类器,方便更换调试分类器。计算复杂度比Softmax从|K|降低到log|K|。
-
公开(公告)号:CN117574892A
公开(公告)日:2024-02-20
申请号:CN202311492828.9
申请日:2023-11-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06F16/35 , G06N3/0455 , G06N3/09 , G06N3/044
Abstract: 本公开涉及一种文本立场分析方法、装置、设备及存储介质,该方法包括:获取待分析文本和所述待分析文本对应的主题短语;对所述待分析文本与所述主题短语进行特征提取,得到文本向量和主题向量;将所述文本向量和所述主题向量输入预训练的分层胶囊模型,得到所述分层胶囊模型输出的根据所述主题短语对所述待分析文本进行立场分析的分析结果,所述分层胶囊模型包括词胶囊层、句子胶囊层和类别胶囊层,所述词胶囊层、句子胶囊层和类别胶囊层分别用于提取所述待分析文本的词级特征、句子级特征和类别特征。本公开通过设置分层胶囊模型,能够提取文本的不同层级的特征信息,从而挖掘文本的深层信息,提升对文本进行立场判断的准确度。
-
公开(公告)号:CN108804594A
公开(公告)日:2018-11-13
申请号:CN201810523561.8
申请日:2018-05-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种新闻内容全文检索引擎的构建方法及装置,该方法步骤如下:获取带有实时访问信息的实时网站日志;获取带有新闻热度评论信息的新闻网站的数据;对所述实时网站日志和所述新闻网站数据分类;对分类后的所述新闻网站数据进行处理、索引并存储;获取新闻网站数据中国的新闻元信息并存储;获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。本发明在查询性能、索引空间和构建性能方面实现了合理的平衡;考虑到统计数据随时间变化的特性,动态更新索引结果;提高了系统的健壮性;提高统计数据与文本数据的复合查询性能。
-
公开(公告)号:CN108628828A
公开(公告)日:2018-10-09
申请号:CN201810347840.3
申请日:2018-04-18
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self-attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。
-
公开(公告)号:CN117033628A
公开(公告)日:2023-11-10
申请号:CN202310856699.0
申请日:2023-07-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9536 , G06F16/951 , G06Q50/00
Abstract: 本发明涉及网络的技术领域,特别是涉及一种基于互动的社交媒体用户分类方法,根据从社交媒体中爬取的推文进行分析,量化推文的敏感程度,对推文进行分类,然后再根据用户之间的交互关系,对评论内容进行情感分析,进而对用户进行分类,挖掘具有发表敏感舆论倾向的用户;包括以下步骤:1.社交媒体推文分类;2.用户分类;3.推文和用户关联分类。
-
-
-
-
-
-
-
-
-