基于层次Softmax的文本分类模型训练方法、装置和设备

    公开(公告)号:CN116166798A

    公开(公告)日:2023-05-26

    申请号:CN202211556578.6

    申请日:2022-12-06

    Inventor: 肖威 莫凡

    Abstract: 本申请涉及一种基于层次Softmax的文本分类模型训练方法、装置和设备,其中,基于层次Softmax的文本分类模型训练方法包括:基于文本的层次分类目录构建二叉类别树,所述二叉类别树的每个类别节点是其所有子类节点的最近公共祖先节点;若所述二叉类别树的某节点包含一个子节点,则将所述子节点与所述节点合并;依据节点路径,对所述二叉类别树的节点进行编码,获得类别编码;根据所述类别编码,计算所述文本在各个类别上的概率分布;基于计算所述文本在各个类别上的概率分布和已知的文本类别,对模型进行训练,不断优化每个节点的学习参数,获得文本分类模型。本申请,在文本分类模型训练时考虑了文本类别层次结构,提高了层次分类场景下的模型计算效率。

    一种数据脱敏处理方法及装置
    2.
    发明公开

    公开(公告)号:CN119128961A

    公开(公告)日:2024-12-13

    申请号:CN202411078320.9

    申请日:2024-08-06

    Abstract: 本申请公开了一种数据脱敏处理方法及装置,获取待脱敏数据,通过预先构建的逻辑连贯性脱敏模型,对待脱敏数据进行逻辑连贯性脱敏,得到脱敏语料,其中,逻辑连贯性脱敏为保留各个数据项之间逻辑关系的脱敏,逻辑关系至少包括计算关系、地域关系、时间关系和对比关系。通过上述方案,由于多个数据项之间存在上下文逻辑关系,为了在脱敏的时候保持脱敏的逻辑关系,通过预先构建的逻辑连贯性脱敏模型,对待脱敏数据进行逻辑连贯性脱敏,逻辑连贯性脱敏为保留各个数据项之间计算关系、地域关系、时间关系、对比关系等逻辑关系的脱敏,实现在对数据进行脱敏的过程中得到保留逻辑关系的脱敏语料的目的。

    一种短文本匹配方法、装置、设备及存储介质

    公开(公告)号:CN117349487A

    公开(公告)日:2024-01-05

    申请号:CN202311528792.5

    申请日:2023-11-16

    Inventor: 卢红波 秦坤 肖威

    Abstract: 本申请公开了一种短文本匹配方法、装置、设备及存储介质,涉及文本分类技术领域,包括:对为目标业务数据编写的各正则表达式进行预处理,并对预处理后表达式进行分类得到多个分类后表达式组,并对各分类后表达式组中的正则表达式进行相似度计算得到第一相似度值;判断第一相似度值是否超过第一阈值,若是则从超过第一阈值的第一相似度值对应的分类后表达式组中确定出任意一个正则表达式得到目标表达式,并删除各分类后表达式组中除目标表达式外的所有表达式得到第一删除后表达式组;利用优化后的DBSCAN算法对所有第一删除后表达式组中的表达式进行聚类得到聚类后表达式簇以对短文本进行匹配。本申请能够提高短文本匹配的准确率和效率,降低误报率。

    一种文本数据的分类方法及装置
    4.
    发明公开

    公开(公告)号:CN119046738A

    公开(公告)日:2024-11-29

    申请号:CN202411237491.1

    申请日:2024-09-04

    Inventor: 卢红波 秦坤 肖威

    Abstract: 本发明公开了一种文本数据的分类方法及装置,涉及文字处理领域,包括获取当前文本数据,当前文本数据包括多个词语;对当前文本数据中的多个词语分别进行分词提取;将提取后的当前文本数据输入至分类模型中,得到分类模型基于当前文本数据中的词语及预先确定的正则表达式输出的当前文本数据对应的类别。无需人工对文本数据进行手动划分,而是采用分类模型进行划分,分类模型是基于正则表达式对当前文本数据进行分类,正则表达式包括类别对应的词语的组合,采用正则表达式判断更加准确。

    日志解析方法、装置、电子装置和存储介质

    公开(公告)号:CN115328873A

    公开(公告)日:2022-11-11

    申请号:CN202210922118.4

    申请日:2022-08-02

    Inventor: 肖威 俞天佐

    Abstract: 本申请涉及一种日志解析方法、装置、电子装置和存储介质,其中,该日志解析方法包括:获取原始日志数据;将预设的解析需求处理为针对原始日志数据的解析规则;基于ClickHouse数据库预设的数据库语法,将解析规则转化为物化视图,并利用物化视图对原始日志数据进行实时解析,得到原始日志数据的解析结果。本申请利用ClickHouse数据库实现了对原始日志数据的解析,从而能够在不依赖额外的解析系统的情况下完成对原始日志数据的实时解析,进而能够提高对ClickHouse数据库性能的利用率,从而降低了目前日志审计系统的开发成本和维护成本。

    一种数据分类结果可视化方法、装置、设备及存储介质

    公开(公告)号:CN116303746A

    公开(公告)日:2023-06-23

    申请号:CN202310295126.5

    申请日:2023-03-22

    Inventor: 肖威 莫凡

    Abstract: 本申请公开了一种数据分类结果可视化方法、装置、设备及存储介质,包括将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量得到训练数据;预设取值范围为数值大于零的取值范围;基于训练数据对初始的带非负约束的多分类逻辑回归模型进行训练,得到训练后的带非负约束的多分类逻辑回归模型;基于训练后的带非负约束的多分类逻辑回归模型以及待分类数据进行数据分类预测,得到分类结果以及对应的目标参数矩阵;根据预设可视化方案,并利用待分类数据、分类结果以及目标参数矩阵生成相应的图表和/或文字。本申请通过利用预设可视化方案针对模型输出的分类结果生成相应的图表和/或文字,能够有效实现对分类结果的可视化展示。

    用户行为检测方法、装置和计算机设备

    公开(公告)号:CN114153713A

    公开(公告)日:2022-03-08

    申请号:CN202111399411.9

    申请日:2021-11-19

    Inventor: 肖威 范渊 刘博

    Abstract: 本申请涉及一种用户行为检测方法、装置和计算机设备,其中该方法包括:基于用户历史行为日志提取第一用户信息、第一实体信息构建第一关系网络,第一关系网络的边表示两个节点之间存在访问关系;基于第一关系网络以第一用户信息为节点构建第二关系网络,第二关系网络的边表示两个节点存在同一访问实体;提取用户行为日志中的第二用户信息、第二实体信息,基于第一关系网络和/或第二关系网络,确定用户行为日志对应的用户异常访问行为,建立了基于用户历史行为的判别机制,根据用户访问共同实体的历史行为划分用户群组,解决了相关技术中由于用户群组标签缺失或者群组标签不足以反映用户行为特征而无法判别用户访问行为异常的问题。

Patent Agency Ranking