基于机器学习的发票虚开风险识别方法及系统

    公开(公告)号:CN114971844A

    公开(公告)日:2022-08-30

    申请号:CN202210480437.4

    申请日:2022-05-05

    IPC分类号: G06Q40/02 G06Q10/06 G06N20/00

    摘要: 本发明公开了基于机器学习的发票虚开风险识别方法及系统,属于数据分析统计技术领域,要解决的技术问题为如何辅助业务人员高效、准确、及时的对纳税人进行定位分析。包括如下步骤:以正常开票的纳税人作为白样本,以虚开发票的纳税人作为黑样本,获取多个黑样本及多个白样本并合并为样本库;以纳税人虚开发票的行为特征作为风险指标特征,基于样本库中所有样本的风险指标特征构建特征数据集,并对所述特征数据集进行预处理;基于随机森林模型构建风险识别模块;基于预处理后的特征数据集对所述风险识别模型进行模型训练、验证和测试;以待检测纳税人的风险指标特征为输入,通过所述最终风险识别模型预测并输出待检测纳税人虚开发票的概率值。

    一种原生HTML轮播组件方法及装置
    22.
    发明公开

    公开(公告)号:CN114721651A

    公开(公告)日:2022-07-08

    申请号:CN202210382494.9

    申请日:2022-04-13

    摘要: 本发明涉及组件开发领域,具体提供了一种原生HTML轮播组件方法,具有如下步骤:S1、首先创建一个类并继承原生HTML元素类;S2、创建必要的DOM元素,并为元素添加样式;S3、DOM结构创建完成后,进行轮播功能实现;S4、设置点击右箭头触发展示下一个板块事件;S5、进行自动轮播;S6、利用Web components API创建自定义标签;S7、在页面上使用itpd‑swiper组件。与现有技术相比,本发明通过shadow DOM创建的子DOM树,不会被页面上的CSS样式和JS脚本所影响。当引入第三方组件的时候,不会对网站造成影响,对于开发者来说,插件变得更简单。

    一种商品名称分类的模型构建方法及装置

    公开(公告)号:CN114580560A

    公开(公告)日:2022-06-03

    申请号:CN202210251484.1

    申请日:2022-03-15

    摘要: 本发明涉及网络模型领域,具体提供了一种商品名称分类的模型构建方法,具有如下步骤:S1、开源Wikipedia和Books Corpus语料收集,税务商品名称语料收集;S2、对开源Wikipedia和BooksCorpus语料进行数据集操作;S3、引入BERT网络进行并进行模块化编程;S4、组合各编程模块,构建完整End‑to‑End的流水线;S5、使用预处理后的开源数据,对调整后的网络进行预训练;S6、对网络进行微调,得到最终的税务领域商品名称分类迁移学习的模型。与现有技术相比,本发明的一种商品名称分类的模型构建方法,能够实现税务商品名称分类,具有良好的推广价值。

    多报文解析方法
    24.
    发明授权

    公开(公告)号:CN110677427B

    公开(公告)日:2022-05-24

    申请号:CN201910947829.5

    申请日:2019-10-08

    IPC分类号: H04L69/22 H04L67/02

    摘要: 本发明公开了一种多报文解析方法,属于计算机及通信技术领域。该方法使用XML和JSON格式报文进行系统间的消息传递,客户端发出消息处理请求后,服务前端适配器对请求进行标准化预处理及判断,并将消息发送到中端,中端接收到前端发送的请求消息后,对消息进行缓冲,并进行重新组织,基于后端消费能力发送消息到后端进行消息处理,后端根据请求消息进行逻辑处理,生产消息所需数据或结果;后端处理完消息后,将返回结果发送到中端,返回结果数据,唤醒前端程序,前端程序接收返回结果并返回到客户端。与现有技术相比,本发明的多报文解析方法降低了提供方和消费方的耦合程度,屏蔽了不同服务提供方技术实现的差异和细节,具有很好的推广应用价值。

    一种发票虚开风险识别方法
    25.
    发明公开

    公开(公告)号:CN113902532A

    公开(公告)日:2022-01-07

    申请号:CN202111135298.3

    申请日:2021-09-27

    IPC分类号: G06Q40/00 G06K9/62 G06N20/00

    摘要: 本发明提供一种发票虚开风险识别方法,属计算机及通信技术领域,本发明用于对企业的发票虚开风险进行识别,方法包括:获取企业相关的涉税数据,包括税务内部系统数据、第三方涉税数据以及互联网涉税数据;根据构建的发票虚开风险识别模型对企业的涉税数据进行扫描、分析、识别,最终得到涉嫌虚开的企业信息,其中构建的税收风险识别模型依据机器学习算法建立;将得到的分析结果以可视化的方式展示。与现有风险识别的方法相比,本发明的优点是使用的分析数据更加全面,风险识别针对性更强,风险识别手段更加丰富,识别结果更加精准。

    税务行业词语切分与词性标注语料库的建设方法及系统

    公开(公告)号:CN113535905A

    公开(公告)日:2021-10-22

    申请号:CN202110848065.1

    申请日:2021-07-27

    摘要: 本发明公开税务行业词语切分与词性标注语料库的建设方法及系统,涉及语料库建设技术领域;具体步骤为:S1:制定关于税务行业现代汉语语料库加工、词语切分与词性标注的规范,S2:生成初版税务领域词典,S3:利用涉及税务语料的通用语料库中学习通用词法分析模型,S4:构建基于CRF序列标注的词语切分与词性标注模型,S5:生成初步切分及标注语料库,S6:生成税务行业领域语料库,S7:基于税务行业领域语料库提取出税务行业领域词典,S8:在税务行业领域语料库上学习领域词法分析模型,S9:封装通用词法分析模型及领域词法分析模型相应的分析器。

    一种基于身份认证的大数据安全框架系统

    公开(公告)号:CN110708337B

    公开(公告)日:2022-06-28

    申请号:CN201911041917.5

    申请日:2019-10-30

    IPC分类号: H04L9/40 H04L9/08 H04L67/141

    摘要: 本发明公开一种基于身份认证的大数据安全框架系统,涉及大数据安全技术领域;包括至少一个大数据服务器,并利用大数据服务器分发智能卡给客户端:大数据服务器创建公共密钥,定义运算规则,大数据服务器获取客户端的标识符和客户密码,利用公共密钥和标识符加密客户端需要认证的密钥,并利用运算规则加密标识符和客户密码,同时加密随机参数,将客户端需要认证的密钥、加密后的标识符和客户密码、加密的随机参数和运算规则置入智能卡发送给客户端;并利用大数据服务器与客户端通过智能卡进行相互认证从而建立会话。

    增值税发票自动识别与管理方法及系统

    公开(公告)号:CN114140804A

    公开(公告)日:2022-03-04

    申请号:CN202111410833.1

    申请日:2021-11-25

    发明人: 郑伟 程林 杨培强

    摘要: 本发明公开了增值税发票自动识别与管理方法及系统,属于发票识别领域,本发明要解决的技术问题为发票录入任务中效率低以及准确率低,技术方案为:该方法具体如下:对发票进行自动识别获取发票图像采集;采集完毕后,对发票图像进行预处理,得到发票图像灰度图;将发票图像灰度图进行发票信息识别提取;通过级联目标检测器对发票内容各区域进行检测区域;通过发票内容识别器对检测分割区域的发票内容进行识别,得到识别结果与得分;根据所设置的置信区间,将得分分为三个等级,具体如下:得分≥阈值1时,直接将记录进行入库操作;得分<阈值1或得分≥阈值2时,进行人工校正,经人工校正识别信息后,进行入库操作。

    一种原生HTML表格组件
    29.
    发明公开

    公开(公告)号:CN113821746A

    公开(公告)日:2021-12-21

    申请号:CN202111001221.7

    申请日:2021-08-30

    IPC分类号: G06F16/957 H04L29/08

    摘要: 本发明涉及应用软件领域,具体提供了一种原生HTML表格组件,具有以下步骤:S1、创建一个类并继承原生HTML元素类;S2、创建必要的DOM元素;S3、进行DOM初始化;S4、根据表格数据进行表格体的创建和渲染;S5、利用Web components API创建自定义标签6、在HTML页面中使用标签;S7、根据页面具体需求使用标签自定义方法。与现有技术相比,本发明的通过shadow DOM创建的子DOM树,不会被页面上的CSS样式和JS脚本所影响。当引入一个第三方组件的时候,不用担心会对网站其他功能造成影响。对于开发者来说,开发无害插件变得更简单。

    基于ES的文件上传检索分析方法及装置

    公开(公告)号:CN113382063A

    公开(公告)日:2021-09-10

    申请号:CN202110636741.9

    申请日:2021-06-07

    IPC分类号: H04L29/08 G06F16/16 G06F16/14

    摘要: 本发明公开了基于ES的文件上传检索分析方法及装置,属于文件分析技术领域,要解决的技术问题为如何快速准确的上传检索分析文件。方法包括如下步骤:获取本地上传到浏览器的文本信息,所述文本信息包括文本格式和文本大小;对文本信息的内容进行分析判断,得到文本类型并获取文本名称;将文本信息的内容统一解析为word格式;对文本信息进行分割,得到信息碎片;通过mapping映射将信息碎片上传ES,传输过程中,通过Disvcovery判断信息碎片是否上传完毕以及是否需要重新分片,并负责集群的master节点的重新分片,上传的信息碎片通过Transport实现信息的交互将信息碎片传输到River数据源中。