-
公开(公告)号:CN113095858A
公开(公告)日:2021-07-09
申请号:CN202110497356.0
申请日:2021-05-07
IPC分类号: G06Q30/00 , G06F16/335 , G06F16/35 , G06F40/194 , G06F40/279 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本发明为解决没有考虑对文本信息的过滤及涉诈类别的分类导致存在识别准确率和效率低的问题,提出一种涉诈短文本识别方法,包括以下步骤:获取待识别的短文本,对所述短文本中的正常短文本进行过滤,得到疑似涉诈短文本数据集;将所述疑似涉诈短文本数据集输入神经网络模型中提取语义特征;根据所述疑似涉诈短文本数据集中字符的拼音和笔顺与预设的涉诈关键词的相似度对所述疑似涉诈短文本数据集进行特征抽取得到人工特征,并基于预设的涉诈关键词进行硬匹配,得到硬匹配特征;将所述语义特征、人工特征和硬匹配特征进行特征融合后通过多分类算法进行建模训练,生成用于诈骗短文本识别的分类器,输出得到涉诈短文本识别结果。
-
公开(公告)号:CN114398581B
公开(公告)日:2024-11-05
申请号:CN202210056971.2
申请日:2022-01-18
IPC分类号: G06F16/958 , G06F16/903 , G06F40/216 , G06F40/284 , G06V30/42 , G06V30/18
摘要: 本发明提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
-
公开(公告)号:CN114398581A
公开(公告)日:2022-04-26
申请号:CN202210056971.2
申请日:2022-01-18
IPC分类号: G06F16/958 , G06F16/903 , G06F40/216 , G06F40/284 , G06K9/62 , G06V30/42 , G06V30/18
摘要: 本发明提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
-
公开(公告)号:CN114090775A
公开(公告)日:2022-02-25
申请号:CN202111376161.7
申请日:2021-11-19
发明人: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 李高翔 , 黄福鸿 , 卓采标 , 廖淑敏 , 杨慧强 , 宋宜昌 , 黄正国 , 周毅 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC分类号: G06F16/35 , G06F16/33 , G06F16/951 , G06F16/957
摘要: 本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。
-
公开(公告)号:CN114143290B
公开(公告)日:2024-01-30
申请号:CN202111407941.3
申请日:2021-11-19
发明人: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC分类号: H04L61/5061 , H04L61/5007 , H04L61/5053 , H04L67/56 , G06F16/951
摘要: 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
-
公开(公告)号:CN114143290A
公开(公告)日:2022-03-04
申请号:CN202111407941.3
申请日:2021-11-19
发明人: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC分类号: H04L61/5061 , H04L61/5007 , H04L61/5053 , H04L67/56 , G06F16/951
摘要: 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
-
公开(公告)号:CN115563342A
公开(公告)日:2023-01-03
申请号:CN202211277485.X
申请日:2022-10-19
IPC分类号: G06F16/75 , G06F16/783 , G06F16/738
摘要: 本发明公开了一种视频主题检索的方法、系统、设备及存储介质,用以解决现有技术样例视频的相似度计算是在较低级别上进行的问题。方法包括:S1、预训练跨模态视觉语言模型,并对所述跨模态视觉语言模型进行调整;S2、对给定的样例视频集合的场景进行分割,并对分割后的各样例视频片段的主题进行聚类;S3、基于所述调整后的跨模态视觉语言模型以及聚类的样例视频片段进行视频主题检索,并对检索结果进行聚合和排序后输出。系统包括:预训练和调整模块、分割和聚类模块、输出模块。计算机设备包括:存储器、处理器,以及计算机程序。包含计算机可执行指令的存储介质用于执行视频主题检索的方法。
-
公开(公告)号:CN114265932A
公开(公告)日:2022-04-01
申请号:CN202111530106.9
申请日:2021-12-10
IPC分类号: G06F16/35 , G06F40/30 , G06F40/211 , G06F40/284 , G06N3/04 , G06N3/08 , G06Q50/00
摘要: 本发明公开一种融入深度语义关系分类的事件脉络生成方法及系统,所述方法包括如下步骤:对新闻数据集合进行分词,合并后生成词文档序列;训练主题模型,利用训练好的主题模型来完成主题的聚类,得到主题聚类结果;将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;对于每个主题下获得的所有事件进行分支确定,得到每个主题对应的分支集合,将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。本发明通过结合基于主题模型的文本聚类方法和基于深度语义的事件聚类方法完成事件脉络的生成过程。
-
-
-
-
-
-
-