-
公开(公告)号:CN109873755B
公开(公告)日:2021-01-01
申请号:CN201910157774.8
申请日:2019-03-02
Applicant: 北京亚鸿世纪科技发展有限公司 , 北京邮电大学
IPC: H04L12/58 , G06F16/35 , G06F16/332
Abstract: 一种基于变体词识别技术的垃圾短信分类引擎涉及信息安全技术领域。本发明由文本预处理模块,分词模块,特征选择模块,垃圾短信分类器模块组成;本发明利用字符结合度的“交叉结合度”分词模块提高了短信文本分词后的文本特征的质量,结合变体词识别技术的短信分类引擎模块可以很好地解决含有生僻字、同音字、象形字、火星文等变体词的垃圾短信分类问题,分类效果较一般分类引擎而言,准确率更高。
-
公开(公告)号:CN109873755A
公开(公告)日:2019-06-11
申请号:CN201910157774.8
申请日:2019-03-02
Applicant: 北京亚鸿世纪科技发展有限公司 , 北京邮电大学
IPC: H04L12/58 , G06F16/35 , G06F16/332
Abstract: 一种基于变体词识别技术的垃圾短信分类引擎涉及信息安全技术领域。本发明由文本预处理模块,分词模块,特征选择模块,垃圾短信分类器模块组成;本发明利用字符结合度的“交叉结合度”分词模块提高了短信文本分词后的文本特征的质量,结合变体词识别技术的短信分类引擎模块可以很好地解决含有生僻字、同音字、象形字、火星文等变体词的垃圾短信分类问题,分类效果较一般分类引擎而言,准确率更高。
-
公开(公告)号:CN116361514A
公开(公告)日:2023-06-30
申请号:CN202211627684.9
申请日:2022-12-17
Applicant: 北京亚鸿世纪科技发展有限公司
IPC: G06F16/901 , G06F16/903 , G06F16/9038 , G06F16/951 , G16Y30/10 , G16Y40/50
Abstract: 一种大规模图数据渐进式探索分析的方法涉及信息技术领域。本发明包括计算图的结构特征步骤和计算子图邻域特征步骤。本发明通过计算的特征子图大大降低了节点和边的数量,避免了大规模图数据可视化时无法全量加载或加载过慢。可视化的特征子图反映了大规模图数据的形态,而特征子图的领域信息为进一步的操作提供了引导。满足了大规模图数据渐进式探索分析的要求。
-
公开(公告)号:CN117235085A
公开(公告)日:2023-12-15
申请号:CN202311054607.3
申请日:2023-08-21
Applicant: 北京亚鸿世纪科技发展有限公司
IPC: G06F16/23 , G06F16/22 , G06F16/2453 , G06F16/2458 , G06F16/27 , G06F9/50
Abstract: 本发明提供一种对海量数据新增变化快速识别的方法,根据预估数据总量、误报率、文件大小得到总桶数;将布隆过滤器文件拆分为至少两个布隆过滤器文件并存储在至少两个服务器上;将需要识别的数据使用哈希算法均衡打散,再通过一致性哈希算法得到分配给字符串的桶号使数据均衡分发到不同的布隆过滤器上;按照桶编号分布式存储数据,输入数据分得桶号后由写布隆做写入操作得到对应的布隆过滤器文件;按照桶编号分布式提取布隆过滤器文件,输入数据分桶后分发的桶号,读布隆开启对应的进程。本发明提出了均衡分桶算法,并结合布隆过滤器、分布式计算和分布式存储技术,实现了分布式布隆过滤器,以满足对海量数据的新增变化进行快速识别的需求。
-
-
-