文本去重方法、装置、电子设备及计算机可读存储介质

    公开(公告)号:CN112733537B

    公开(公告)日:2024-10-22

    申请号:CN202011637850.4

    申请日:2020-12-31

    发明人: 何友鑫 彭琛 汪伟

    摘要: 本发明涉及语音语义技术,揭露了一种文本去重方法,包括:获取多个待去重文本,将多个待去重文本汇集为语料库;对多个待去重文本进行分词得到文本分词;根据语料库构建文本分词对应的待去重文本的文本指纹;根据文本指纹对多个待去重文本进行重合去重,得到多个初步去重文本;对多个初步去重文本中各文本进行分句,得到每个初步去重文本的文本分句;计算每个文本分句间的重合字粒度;根据重合字粒度对多个初步去重文本进行范围去重,得到去重文本集。此外,本发明还涉及区块链技术,所述待去重文本可存储于区块链的节点。本发明还提出一种文本去重装置、电子设备以及计算机可读存储介质。本发明可以解决大量文本去重时效率和精确度不高的问题。

    评分卡模型的建立方法、装置、计算机设备和存储介质

    公开(公告)号:CN109598095B

    公开(公告)日:2023-08-08

    申请号:CN201910012412.X

    申请日:2019-01-07

    IPC分类号: G06F30/27

    摘要: 本申请涉及一种评分卡模型的建立方法、装置、计算机设备和存储介质。该方法包括:获取多个训练样本的样本数据;样本数据包括多个样本变量;对每个样本变量进行分箱操作;确定每个样本变量对应的分箱数,比较分箱数是否超过阈值;若是,计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值;根据分箱占比、坏样本率及卡方值,对样本变量的多个分箱进行合并处理,返回确定每个样本变量对应的分箱数的步骤;否则,计算每个样本变量的WOE值,根据WOE值进行样本变量筛选,基于筛选得到的样本变量建立评分卡模型。采用本方法能够提高模型训练效率和精度。

    基于机器学习的风险预测方法、装置、计算机设备和存储介质

    公开(公告)号:CN109543925B

    公开(公告)日:2023-01-24

    申请号:CN201910012426.1

    申请日:2019-01-07

    IPC分类号: G06Q10/04 G06Q10/0635

    摘要: 本申请涉及一种基于机器学习的风险预测方法、装置、计算机设备和存储介质。方法包括:获取训练样本的第一风险数据;对第一风险数据进行预处理,得到多种基础风险因子;识别训练样本的关联样本,爬取关联样本的第二风险数据;对第二风险数据进行预处理,得到多种关联风险因子;对基础风险因子及关联风险因子进行筛选,得到多种有效风险因子;基于有效风险因子对机器学习模型进行训练,得到风险预测模型;基于风险预测模型对监控对象是否存在风险行为进行监控。采用本方法能够提高风险预测效率。

    基于机器学习的风险预测方法、装置、计算机设备和存储介质

    公开(公告)号:CN109543925A

    公开(公告)日:2019-03-29

    申请号:CN201910012426.1

    申请日:2019-01-07

    IPC分类号: G06Q10/04 G06Q10/06

    CPC分类号: G06Q10/04 G06Q10/0635

    摘要: 本申请涉及一种基于机器学习的风险预测方法、装置、计算机设备和存储介质。方法包括:获取训练样本的第一风险数据;对第一风险数据进行预处理,得到多种基础风险因子;识别训练样本的关联样本,爬取关联样本的第二风险数据;对第二风险数据进行预处理,得到多种关联风险因子;对基础风险因子及关联风险因子进行筛选,得到多种有效风险因子;基于有效风险因子对机器学习模型进行训练,得到风险预测模型;基于风险预测模型对监控对象是否存在风险行为进行监控。采用本方法能够提高风险预测效率。

    文本去重方法、装置、电子设备及计算机可读存储介质

    公开(公告)号:CN112733537A

    公开(公告)日:2021-04-30

    申请号:CN202011637850.4

    申请日:2020-12-31

    发明人: 何友鑫 彭琛 汪伟

    摘要: 本发明涉及语音语义技术,揭露了一种文本去重方法,包括:获取多个待去重文本,将多个待去重文本汇集为语料库;对多个待去重文本进行分词得到文本分词;根据语料库构建文本分词对应的待去重文本的文本指纹;根据文本指纹对多个待去重文本进行重合去重,得到多个初步去重文本;对多个初步去重文本中各文本进行分句,得到每个初步去重文本的文本分句;计算每个文本分句间的重合字粒度;根据重合字粒度对多个初步去重文本进行范围去重,得到去重文本集。此外,本发明还涉及区块链技术,所述待去重文本可存储于区块链的节点。本发明还提出一种文本去重装置、电子设备以及计算机可读存储介质。本发明可以解决大量文本去重时效率和精确度不高的问题。

    情感分类方法、装置、电子设备及存储介质

    公开(公告)号:CN112732915A

    公开(公告)日:2021-04-30

    申请号:CN202011640369.0

    申请日:2020-12-31

    发明人: 何友鑫 彭琛 汪伟

    摘要: 本发明涉及智能决策技术,揭露了一种情感分类方法,包括:获取原始文本数据,对原始文本数据进行文本预处理,得到初始字词集;对初始字词集进行编码处理,得到整数编码,根据整数编码对初始字词集进行向量化处理,得到标准词向量集;对标准词向量集进行双向语义处理,得到语义词向量集;利用预设的长短期记忆网络对语义词向量集进行筛选处理,得到目标文本序列,根据预设的注意力机制对目标文本序列进行概率计算得到概率值,对概率值进行分析得到情感分类结果。此外,本发明还涉及区块链技术,所述初始字词集可存储于区块链的节点。本发明还提出一种情感分类装置、电子设备以及计算机可读存储介质。本发明可以解决情感分类的准确性不高的问题。

    评分卡模型的建立方法、装置、计算机设备和存储介质

    公开(公告)号:CN109598095A

    公开(公告)日:2019-04-09

    申请号:CN201910012412.X

    申请日:2019-01-07

    IPC分类号: G06F17/50

    摘要: 本申请涉及一种评分卡模型的建立方法、装置、计算机设备和存储介质。该方法包括:获取多个训练样本的样本数据;样本数据包括多个样本变量;对每个样本变量进行分箱操作;确定每个样本变量对应的分箱数,比较分箱数是否超过阈值;若是,计算样本变量对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值;根据分箱占比、坏样本率及卡方值,对样本变量的多个分箱进行合并处理,返回确定每个样本变量对应的分箱数的步骤;否则,计算每个样本变量的WOE值,根据WOE值进行样本变量筛选,基于筛选得到的样本变量建立评分卡模型。采用本方法能够提高模型训练效率和精度。