一种文本分类方法及装置

    公开(公告)号:CN109657064A

    公开(公告)日:2019-04-19

    申请号:CN201910151793.X

    申请日:2019-02-28

    IPC分类号: G06F16/35 G06F17/27

    摘要: 本发明公开了一种文本分类方法,包括:获取训练样本;对所述训练样本进行分词,得到分词列表;根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;以特征词的词频文档矩阵创建训练容器;构建所述训练样本的SLDA有监督模型;通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。本发明成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。

    基于属性相似度的数据填补方法、装置、设备及存储介质

    公开(公告)号:CN109033454A

    公开(公告)日:2018-12-18

    申请号:CN201810981153.7

    申请日:2018-08-27

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于属性相似度的数据填补方法,在确定出待填补信息系统的各属性信息中含有缺失数据的属性信息之后,就在待填补信息系统中的多个目标对象中查找与各含有缺失数据的属性信息对应的数据,然后依据各目标对象的属性相似度为各目标对象赋权值,对查找到的多个数据进行加权求和,用加权求和后的数据值填补各含有缺失数据的属性信息对应的缺失数据,与现有技术中只选取一个最相似的对象中相同属性信息下的相关数据,直接用选取的该数据去填补缺失数据相比,应用本填补方法,产生的数据误差小,填补的数据准确性高。另外,本发明还公开了一种基于属性相似度的数据填补装置、设备及存储介质,效果如上。

    一种停电敏感预判方法和系统

    公开(公告)号:CN108304990B

    公开(公告)日:2021-10-19

    申请号:CN201711444284.3

    申请日:2017-12-27

    摘要: 本发明公开了一种停电敏感预判方法。该方法包括:获取用户用电相关信息,根据所述用户用电相关信息建立用户历史停电情况表;将所述用户历史停电情况表输入到分析计算平台进行预处理,得到用户历史停电情况的模型数据集;根据管理规则将所述模型数据集中的用户划分为特殊用户群体和非特殊用户群体,将所述特殊用户群体确定为停电高敏感用户;采用半监督分类模型从所述非特殊用户群体中找出停电敏感用户。通过管理规则和半监督分类模型可以准确判别对停电状况的敏感的用户,从而可以在停电发生时,为采取不同的安抚和引导策略提供参考,减少客户来电风险,树立了电力公司良好的社会形象。

    基于系统指标数据的数据预测方法、系统及电子设备

    公开(公告)号:CN110162576A

    公开(公告)日:2019-08-23

    申请号:CN201910321874.X

    申请日:2019-04-22

    IPC分类号: G06F16/28 G06F17/18

    摘要: 本申请提供了一种基于系统指标数据的数据预测方法、系统及电子设备,属于数据分析领域。该基于系统指标数据的数据预测方法通过对系统数据进行分析后,对相关数据进行处理,生成相应的处理结果,最后把处理的数据提供给用户,作为参考。这种方法有效提高系统数据展示的完整性,避免数据录入错误等数据问题,有助于业务人员分析数据,发现数据中存在的疑点,减少数据错误而引发的业务风险。该方法具逻辑清晰,数据检查筛选效率高等优点,很好解决系统过分依赖业务人员对数据进行审查的工作,减少工作量、遗漏风险大的问题,有助于工作的顺利进行。