-
公开(公告)号:CN112182331B
公开(公告)日:2022-08-02
申请号:CN202011015886.9
申请日:2020-09-24
申请人: 上海工程技术大学 , 上海金仕达软件科技有限公司
IPC分类号: G06F16/951 , G06F16/2458 , G06K9/62 , G06Q40/04
摘要: 本发明公开了一种基于SVM‑RFE的客户风险特征筛选方法及其应用,方法包括:获取包括多个客户特征的客户风险特征数据;针对客户风险特征Xj,基于基尼系数、信息增益、信息增益比、互信息及SVM分类器最优分类结果的特征权重计算客户风险特征Xj的重要度综合度量指数;依次计算所有的客户风险特征的重要度综合度量指数后,按照以上指数从大到小依次排序,选取前k个特征构成客户风险特征集。本发明的方法不仅考虑了所选特征子集与目标变量的相关性及特征子集自身的冗余性,克服利用单一指标筛选客户风险特征的弊端,而且在特征筛选过程中引入了SVM分类器的训练结果,使得所筛选客户风险特征更加适合SVM分类器的特性,应用前景好。
-
公开(公告)号:CN112182331A
公开(公告)日:2021-01-05
申请号:CN202011015886.9
申请日:2020-09-24
申请人: 上海工程技术大学 , 上海金仕达软件科技有限公司
IPC分类号: G06F16/951 , G06F16/2458 , G06K9/62 , G06Q40/04
摘要: 本发明公开了一种基于SVM‑RFE的客户风险特征筛选方法及其应用,方法包括:获取包括多个客户特征的客户风险特征数据;针对客户风险特征Xj,基于基尼系数、信息增益、信息增益比、互信息及SVM分类器最优分类结果的特征权重计算客户风险特征Xj的重要度综合度量指数;依次计算所有的客户风险特征的重要度综合度量指数后,按照以上指数从大到小依次排序,选取前k个特征构成客户风险特征集。本发明的方法不仅考虑了所选特征子集与目标变量的相关性及特征子集自身的冗余性,克服利用单一指标筛选客户风险特征的弊端,而且在特征筛选过程中引入了SVM分类器的训练结果,使得所筛选客户风险特征更加适合SVM分类器的特性,应用前景好。
-
公开(公告)号:CN115146639A
公开(公告)日:2022-10-04
申请号:CN202210647798.3
申请日:2022-06-08
申请人: 上海金仕达软件科技有限公司
IPC分类号: G06F40/295
摘要: 本发明提供一种面向金融领域的中文命名实体识别方法及系统,通过将待识别数据处理为单字符和/或多字符,并将所述单字符和/或所述多字符分别转化为词向量;根据FLAT(F l at‑Latt ice Transformer)编码模型,对所述单字符和/或多字符的位置信息进行相对位置编码得到四个位置编码方阵,其中,所述位置信息为每一个单字符和/或多字符都构建两个位置列表,分别为Head和Tai l,Head为每个字符或词汇的开始位置,Tai l为每个字符或词汇的结束位置;将所述词向量和所述位置编码方阵输入Transformer模型得到实体的标签;将所述实体的标签输入判别模型得到实体类型的技术方案,提高了判断实体类型准确性,提升了识别效率。
-
公开(公告)号:CN114170614A
公开(公告)日:2022-03-11
申请号:CN202111535580.0
申请日:2021-12-15
申请人: 上海金仕达软件科技有限公司
IPC分类号: G06V30/416 , G06V30/413 , G06F16/178
摘要: 本发明公开了一种公告文档的处理方法及系统,基于获取的PDF公告文档的格式和内容,判断PDF公告文档为标准化PDF文档或非标准化PDF文档,当PDF公告文档为标准化PDF文档时,将PDF公告文档由PDF格式转换为一个临时的docx格式的Word公告文档,对PDF公告文档和Word公告文档采用预设坐标算法进行公告域信息分割,并在分割完成后得到PDF公告文档对应的格式化的公告纯文本。本发明利用Word公告文档中的正文行对象和表格对象,在采用预设坐标算法时有效的区分PDF公告文档中的正文行对象和表格对象,使得PDF公告文档转换之后的正文行对象与表格对象相互区分和隔离,满足自然语言处理技术的需求。
-
公开(公告)号:CN115017901A
公开(公告)日:2022-09-06
申请号:CN202210645984.3
申请日:2022-06-08
申请人: 上海金仕达软件科技有限公司
IPC分类号: G06F40/289 , G06F40/30 , G06F16/35 , G06N3/04 , G06N3/08
摘要: 本发明提供一种公告语料的信息预测方法、系统、设备以及存储介质,其中,信息预测方法包括以下步骤:获取训练语料;对训练语料进行语料分割,得到分割语料;根据标记符集合对分割语料进行标注,得到标注序列;将分割语料输入至第一预训练模型,得到字嵌入序列;将分割语料输入至第二预训练模型,得到BERT嵌入序列;对标注序列、字嵌入序列以及BERT嵌入序列进行顺序拼接,得到训练语料的训练数据;将训练语料的训练数据输入至神经网络模型中进行训练,得到信息预测模型;获取公告语料的特征数据;将公告语料的特征数据输入至信息预测模型中进行信息预测,得到预测结果。
-
-
-
-