面向大规模分类体系的短文本标签方法、系统、装置

    公开(公告)号:CN110059181A

    公开(公告)日:2019-07-26

    申请号:CN201910202727.0

    申请日:2019-03-18

    IPC分类号: G06F16/35

    摘要: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。

    一种动态URL过滤方法及装置

    公开(公告)号:CN104573033A

    公开(公告)日:2015-04-29

    申请号:CN201510020876.7

    申请日:2015-01-15

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30876 G06F17/30887

    摘要: 本发明提出了一种动态URL过滤方法及装置,该方法包括:基于URL标注集创建信息字典;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;对URL特征矩阵进行分类得到特征权重向量和二分类阈值;基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。本发明可以离线处理,不需要访问网络、减少了存储,比较节省处理时间和计算资源。

    一种基于频域信息与多任务学习的深度伪造视频鉴别方法

    公开(公告)号:CN115187891A

    公开(公告)日:2022-10-14

    申请号:CN202210585640.8

    申请日:2022-05-27

    摘要: 本发明涉及一种基于频域信息与多任务学习的深度伪造视频鉴别方法,使用频域分析中的离散余弦变换,结合分块处理的方式保留部分RGB三通道图像的空间信息,得到频域特征作为输入数据;使用多任务学习的深度神经网络提取输入数据的特征,将Xception网络作为骨干网络模块,并设计基于反卷积运算的分割模块与基于特征融合的分类模块,将骨干网络模块与分割模块提取的特征融合;同时设计优化训练引导目标算法,将融合后的特征间关系转化为三维条件下的几何距离,通过优化训练引导目标算法完成多任务学习的深度神经网络模型的训练,得到深度伪造视频鉴别模型,完成深度伪造视频的鉴别。

    基于特征工程和表示学习的机器行为识别方法

    公开(公告)号:CN113608946A

    公开(公告)日:2021-11-05

    申请号:CN202110910834.6

    申请日:2021-08-10

    摘要: 基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。

    一种基于多语义特征融合的文本分类方法和装置

    公开(公告)号:CN117271765A

    公开(公告)日:2023-12-22

    申请号:CN202311059507.X

    申请日:2023-08-22

    摘要: 本发明公开了一种基于多语义特征融合的文本分类方法及装置,所述方法包括:获取待分类的文本,将所述待分类的文本进行预处理,得到处理后的文本;将词级粒度向量输入训练完毕的词级语义特征提取模型,得到词级语义特征;将句子级粒度向量输入训练完毕的句子级语义特征提取模型,得到句子级语义特征;基于文章级向量对所述处理后的文本进行特征提取,得到文本级语义特征;将所述词级语义特征、句子级语义特征以及文本级语义特征进行特征拼接融合,得到融合后特征,使用分类器对所述融合后特征进行分类。本方法从词粒度、句子粒度和文章粒度等多个层面对文本进行精细语义建模,利用文本的多语义融合特征进行文本分类,提高了文本分类的准确率。

    一种融合多源信息的人名消歧方法及装置

    公开(公告)号:CN117149949A

    公开(公告)日:2023-12-01

    申请号:CN202311059658.5

    申请日:2023-08-22

    摘要: 本发明公开了一种融合多源信息的人名消歧方法及装置,所述方法包括:将所有文本划分为若干个类;基于同名作者对应的机构名称、文本共同作者和文本主题内容,分别对每一类文本进行聚类,以得到该类文本的机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果;基于簇内机构信息及文本的共现信息,对机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果进行融合,得到该类文本的初步聚类结果;提取初步聚类结果中的单簇文本,并基于所述单簇文本与该类文本中其他文本的相似度进行单簇文本的融合后,得到人名消歧结果。本发明可以实现了更好的消歧准确率。