一种多源异构数据采集方法

    公开(公告)号:CN111737529A

    公开(公告)日:2020-10-02

    申请号:CN202010713819.8

    申请日:2020-07-23

    IPC分类号: G06F16/90 G06F40/253

    摘要: 本发明提供了一种多源异构数据采集方法。包括:建立关键词表;获取各数据源采集内容,并创建对应的采集语法;根据所述采集语法,建立数据采集规则;将所述数据采集规则关联到所述关键词表对应关键词上。本发明有益效果为:通过构建数据源的关键词表,提高了数据采集的全面性。通过构建采集语法,本发明基于抽象语法树,并通过自定义反射规则进行确定采集语法,因此,采集语法灵活多变,因为是自定义的反射规则,因此符合数据采集的要求。本发明根据采集语法构建数据的采集规则,使得数据采集能够动态采集。本发明通过将数据采集规则关联到关键词表的关键词上,使得数据采集更加全面、动态更新的方式使得规则漏洞更好,采集的数据更加准确。

    基于tfidf算法和相关词权重修正的文本分类方法

    公开(公告)号:CN107633000B

    公开(公告)日:2020-08-04

    申请号:CN201710656342.2

    申请日:2017-08-03

    发明人: 黄永军

    IPC分类号: G06F16/35 G06F40/284

    摘要: 本发明涉及一种基于tfidf算法和相关词权重修正的文本分类方法,包括以下步骤:S1:提取出类别关键字;S2:构成滑动文本窗,设定词语权重并修正其在滑动文本窗的位置;S3:根据词频统计修正函数计算出词语的词频;S4:根据TFIDF算法加权计算,实现文本词语的向量化;S5:通过SVM分类器进行文本分类。文本分类过程中,增加类别关键字的权重,使得文本向量化之后的结果更好的反应文本信息。本发明引入文本滑动窗口,充分考虑了词语在文本中的位置信息。类别关键词来源于一部分的训练数据以及用户提供,类别关键字的提取利用了tfidf算法,可以高效准确的提取关键词的特性,同时兼顾了实际应用场景类别关键词较少的情况,类别关键字提取全面且准确。

    图像指纹提取方法及其设备、信息过滤方法及其系统

    公开(公告)号:CN101794390A

    公开(公告)日:2010-08-04

    申请号:CN201010112716.2

    申请日:2010-02-24

    发明人: 黄永军 梁应宏

    IPC分类号: G06K9/46 H04W24/00

    摘要: 本发明提供一种图像指纹提取方法以及基于图像指纹进行信息过滤的方法和系统。其中的图像指纹提取方法包括如下步骤:S1:对原始图像进行插值处理;S2:将插值处理后的图像分块,并进行DCT变换;S3:将变换后的图片进行RGB灰度处理;S4:对灰度处理的图像结果进行量化;S5:对图像进行无损压缩,输出一个二进制序列;S6:将上述二进制序列进行序列化重组,得到图像指纹。通过本发明能够大幅度提高对数据业务内容识别处理的速度,从而使运营商业务全流量实时监测成为可能。

    一种基于自然语言语义分析的文本识别方法

    公开(公告)号:CN113569577B

    公开(公告)日:2024-04-05

    申请号:CN202110635441.9

    申请日:2021-06-07

    摘要: 本发明提供了一种基于自然语言语义分析的文本识别方法,包括:建立自然语言语义和标准语言语义的对应关系映射集;获取文本信息,提取文本中的语言信息,通过对应关系映射集识别语言信息中的标准语言语义和非标准语言语义;将非标准语言语义信息输入非标准语言语义分析系统分析判定,完成文本识别;融合了自然环境中语言语义的分析和同时进行文本识别,使得在对所获取的文本在进行自然语言语义分析时,有益于在自然语言语义的环境下对文本快速、精准、多类型同时识别。

    业务数据完整性保护方法、装置、设备及存储介质

    公开(公告)号:CN111163471B

    公开(公告)日:2021-02-19

    申请号:CN201911363324.0

    申请日:2019-12-26

    发明人: 崔婷婷 陈乔

    摘要: 本申请涉及一种业务数据完整性保护方法、装置、设备及存储介质,其中,业务数据完整性保护方法包括首先终端向网络节点发送待保护业务数据的完整性保护信息;完整性保护信息包括数据速率信息和/或业务数据信息;在网络节点接收到完整性保护信息后,网络节点根据完整性保护信息适配相应的完整性保护策略。由于完整性保护信息中包括数据速率信息和/或业务数据信息,那么网络节点根据完整性保护信息适配完整性保护策略时,必然会考虑到数据速率及业务数据,因此,本申请的业务数据完整性保护方法可以根据不同的数据速率以及不同的业务数据调整完整性保护策略,可以在一定程度上降低完整性保护的开销,缩减校验将增加数据端到端的时延。