一种基于无监督学习的领域词发现方法

    公开(公告)号:CN111881678B

    公开(公告)日:2023-11-10

    申请号:CN202010747924.3

    申请日:2020-07-30

    摘要: 本发明涉及一种基于无监督学习的领域词发现方法,属于计算机文本信息处理技术领域,输入通用语料和领域语料便可提取出来领域词,步骤为先把通用语料和领域语料切分,获得通用候选词库和领域候选词库,两种领域词库的处理方式相同;获取了通用候选词库和领域候选词库,对领域文本进行无监督学习,将两个词库中的词频转换为对应的概率,对两个词库的未分割句子任意切分,计算每一种切分方式的标准化概率得分,统计得分靠前的句子切分组合中的词语,收集领域词汇,把领域候选词库中的通用词转移到通用候选词库中,并保存获得领域词汇。无需人工标注语料,提高了含有标点符号的实体名称识别率。

    一种基于动态阈值的时间序列数据序列模式挖掘方法

    公开(公告)号:CN110609857B

    公开(公告)日:2021-03-05

    申请号:CN201910811085.4

    申请日:2019-08-30

    IPC分类号: G06F16/2458 G06Q40/04

    摘要: 本发明属于数据处理技术领域,涉及一种序列模式的挖掘方法。该方法包括:利用时间窗口对原始序列进行划分,形成时间序列集;扫描时间序列集,获取一项式集合;根据频繁一项式定义采用动态阈值对一项式进行筛选,将非频繁的项从序列集中删除,得到频繁一项式集;从频繁一项式集中的第一项开始以所述的第一项为前缀构造后缀,对后缀进行频繁多项式的挖掘,满足频繁多项式定义的项为频繁项,当后缀为空时,挖掘结束;遍历频繁一项式集合,迭代进行上一步操作,直到频繁一项式集合被遍历完成,得到频繁项集合。本发明的方法,在识别频繁一项式时,采用了动态变化的支持度阈值;不仅对不同序列之间频繁出现的模式进行挖掘,也挖掘一个序列内部频繁出现的模式。

    一种基于图卷积网络的异常账户检测方法

    公开(公告)号:CN111882446A

    公开(公告)日:2020-11-03

    申请号:CN202010738675.1

    申请日:2020-07-28

    IPC分类号: G06Q40/08 G06N3/04 G06K9/62

    摘要: 本发明涉及一种基于图卷积网络的异常账户检测方法,属于网络安全技术领域,通过对账户交易数据进行预处理,得到真正需要的有效数据。然后对交易数据按照一定标准进行聚类,得到高中低三种不同的消费能力人群,根据消费情况对人员分组来识别账户异常情况。分组处理后,构建金融网络,采用GCN对异常账户进行分类。分类处理后,得到异常账户和正常账户,应用KNN对异常账户进行识别,找到与该异常账户异常情况最为相似的现有异常账户,通过比对进行风险分析,确定异常情况和异常原因。能够快速、准确的识别出拥有异常交易行为的账户,并为之匹配异常行为最为相似的现有样本,帮助工作人员锁定目标,迅速判断账户风险。

    一种Windows窗体应用程序行为模拟机器人及其工作方法

    公开(公告)号:CN111880897A

    公开(公告)日:2020-11-03

    申请号:CN202010722934.1

    申请日:2020-07-24

    IPC分类号: G06F9/455 G06F9/451 G06K9/00

    摘要: 本发明涉及一种Windows窗体应用程序行为模拟机器人及其工作方法,包括模拟任务下发模块、任务配置文件库、模拟任务解析模块、自主模拟模块、行为库构建模块及行为数据库;模拟任务下发模块将下发的任务配置文件存储在任务配置文件库中;模拟任务解析模块从任务配置文件库中获取任务配置文件,对任务配置文件进行解析操作,将解析得到的模拟参数传给自主模拟模块;自主模拟模块接收到模拟参数之后,设置自身的模拟参数,选择模拟方法进行自主的行为模拟;行为库构建模块将模拟操作行为存储到行为数据库中。本发明可以对所有的Windows窗体应用程序进行自主行为模拟,自主构建行为库。