一种面向政府领域新词自动发现的实现方法、分析模型及其系统

    公开(公告)号:CN111476025B

    公开(公告)日:2021-01-08

    申请号:CN202010133406.2

    申请日:2020-02-28

    摘要: 本发明提供一种面向政府领域新词自动发现的实现方法、分析模型及其系统,所述方法包括:对网络信息去除杂数据后得到纯文本,通过HanLP分词器对纯文本进行分词获得带有词性的单词集合,对单词集合进行常用词、垃圾词的初步过滤,对过滤结果进行单词多元匹配形成组合词汇,根据组合规则判断词性,运用TF/IDF算法统计词频得到加权分数,根据分数进行筛选和专家鉴定形成最优规则,系统依据最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合,收录大量专业词典,借鉴语言学家研究成果,形成了最优的分析模型从而输出新的词汇,有效提高了新词发现效率和新词识别的准确性,同时可查询到具有更高语义专指度的复合词,提升了政府网站新词发现的专业度和准确性。

    一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质

    公开(公告)号:CN111967063A

    公开(公告)日:2020-11-20

    申请号:CN202010908124.5

    申请日:2020-09-02

    摘要: 本发明提供了一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质,属于互联网内容安全监测技术领域。所述方法应用于服务器,从网页中抽取网页特征,通过分类算法构建篡改二分类模型,利用fasttext算法对模型进行机器学习分类训练,并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测,对模型训练数据和各维度监测数据进行综合评分,最终得到监测结果。本技术方案将DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析技术相融合,相比传统仅采用一项分析技术的监测方法而言,从多个维度、多个特质综合多项分析技术进行监测和统一分析,能有效减少误报、漏报情况;并且,通过制定和采用一定规则,同时实施多项分析技术,将近时间内分析结果存入缓存中,能有效避免重复计算,高并发处理海量网页,使处理速度远高于常规监测手段。

    一种自动识别签名章或手写签名的方法及装置

    公开(公告)号:CN108921126B

    公开(公告)日:2019-07-23

    申请号:CN201810795447.0

    申请日:2018-07-20

    IPC分类号: G06K9/00 G06K9/20

    摘要: 本发明提供了一种自动识别签名章或手写签名的方法,包括如下步骤:S1、根据特征图片生成一个M1xM2的特征矩阵M,所述特征图片为包含签名章或手写签名的图片;S2、获取目标图片并得到目标图片的一个N1xN2特征矩阵N,所述目标图片为待识别图片;S3、通过判断特征矩阵N中是否包含矩阵M来判断目标图片中是否包含特征图片中的签名章或手写签名,如果是,则确定目标图片中包含特征图片,即目标图片中含有特征图片中的签名章或手写签名,反之则不包含。同时,本发明还提供了一种自动识别签名章或手写签名的装置。采用本发明实施例,能够实现简单、快速的对签名章或手写签名检查。

    一种网站站点地图自动重构的方法及系统

    公开(公告)号:CN109063053B

    公开(公告)日:2019-07-30

    申请号:CN201810795449.X

    申请日:2018-07-20

    IPC分类号: G06F16/954 G06F16/953

    摘要: 本发明提供了一种网站站点地图自动重构的方法,该方法具体包括以下步骤:S1、网站网页采集;S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对 的方式保存进行归类保存,得到网站网页信息集合MAP;S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。另外,本发明还提供了一种网站站点地图自动重构的系统。通过本发明的技术方案自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。

    一种自动识别签名章或手写签名的方法及装置

    公开(公告)号:CN108921126A

    公开(公告)日:2018-11-30

    申请号:CN201810795447.0

    申请日:2018-07-20

    IPC分类号: G06K9/00 G06K9/20

    CPC分类号: G06K9/00161 G06K9/2063

    摘要: 本发明提供了一种自动识别签名章或手写签名的方法,包括如下步骤:S1、根据特征图片生成一个M1xM2的特征矩阵M,所述特征图片为包含签名章或手写签名的图片;S2、获取目标图片并得到目标图片的一个N1xN2特征矩阵N,所述目标图片为待识别图片;S3、通过判断特征矩阵N中是否包含矩阵M来判断目标图片中是否包含特征图片中的签名章或手写签名,如果是,则确定目标图片中包含特征图片,即目标图片中含有特征图片中的签名章或手写签名,反之则不包含。同时,本发明还提供了一种自动识别签名章或手写签名的装置。采用本发明实施例,能够实现简单、快速的对签名章或手写签名检查。

    一种基于DOM网页剪枝的相似网页查找方法及系统

    公开(公告)号:CN109062876B

    公开(公告)日:2019-07-12

    申请号:CN201810801006.7

    申请日:2018-07-20

    IPC分类号: G06F17/22

    摘要: 本发明提供了一种基于DOM网页剪枝的相似网页查找方法及系统,其包括步骤:输入数据格式化:获取网页的数字化标识;相似网页查找:在存储网页数字化标识的数据库中查找相似网页。其中,所述获取网页的数据化标识具体包括以下步骤:网页数据格式化:获取输入网页的HTML源代码;网页净化:去除网页中的冗余信息;生成网页的DOM树:对网页进行DOM解析,生成DOM树;精炼的DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。本发明方法能够提高海量网页中相似网页的查找效率。

    一种基于DOM网页剪枝的相似网页查找方法及系统

    公开(公告)号:CN109062876A

    公开(公告)日:2018-12-21

    申请号:CN201810801006.7

    申请日:2018-07-20

    IPC分类号: G06F17/22

    CPC分类号: G06F17/2211 G06F17/227

    摘要: 本发明提供了一种基于DOM网页剪枝的相似网页查找方法及系统,其包括步骤:输入数据格式化:获取网页的数字化标识;相似网页查找:在存储网页数字化标识的数据库中查找相似网页。其中,所述获取网页的数据化标识具体包括以下步骤:网页数据格式化:获取输入网页的HTML源代码;网页净化:去除网页中的冗余信息;生成网页的DOM树:对网页进行DOM解析,生成DOM树;精炼的DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。本发明方法能够提高海量网页中相似网页的查找效率。

    一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质

    公开(公告)号:CN111967063B

    公开(公告)日:2021-04-09

    申请号:CN202010908124.5

    申请日:2020-09-02

    摘要: 本发明提供了一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质,属于互联网内容安全监测技术领域。所述方法应用于服务器,从网页中抽取网页特征,通过分类算法构建篡改二分类模型,利用fasttext算法对模型进行机器学习分类训练,并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测,对模型训练数据和各维度监测数据进行综合评分,最终得到监测结果。本技术方案将DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析技术相融合,相比传统仅采用一项分析技术的监测方法而言,从多个维度、多个特质综合多项分析技术进行监测和统一分析,能有效减少误报、漏报情况;并且,通过制定和采用一定规则,同时实施多项分析技术,将近时间内分析结果存入缓存中,能有效避免重复计算,高并发处理海量网页,使处理速度远高于常规监测手段。