网络请求数据分类模型训练方法、分类方法及存储介质

    公开(公告)号:CN114528908B

    公开(公告)日:2024-09-06

    申请号:CN202111670119.6

    申请日:2021-12-31

    发明人: 陈昊天 张研

    摘要: 本发明提供了一种网络请求数据分类模型训练方法、分类方法及存储介质,训练方法包括步骤:获取多条网络请求数据,并提取各条网络请求数据中的特征数据;采用预设的特征数据匹配规则对网络请求数据中的特征数据进行匹配,获得每条网络请求数据中特征数据的数量匹配结果;采用各条合法请求数据的请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型;采用第一计算模型计算请求地址数据的文本序列生成概率;根据数量匹配结果和文本序列生成概率生成各条网络请求数据的特征向量,采用特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型。本发明从多个维度对网络请求数据进行分析,有效提高了网络数据分类的准确性。

    商品和服务编码智能识别系统、方法、设备及存储介质

    公开(公告)号:CN116028622A

    公开(公告)日:2023-04-28

    申请号:CN202211673820.8

    申请日:2022-12-26

    摘要: 本发明提供一种商品和服务编码智能识别系统、方法、设备及存储介质,涉及电子商务平台技术领域。本发明所述的商品和服务编码智能识别系统包括:数据收集模块,用于获取样本数据,其中,样本数据包括历史开票数据;数据处理模块,用于根据历史开票数据构建训练集;模型训练模块,用于构建分类模型,根据训练集对所述分类模型进行训练,得到训练好的分类模型;线上服务模块,用于根据训练好的分类模型,对商品和服务编码进行智能识别。本发明可以对商品和服务编码进行智能识别,提高机器编码的准确率。

    一种数据表处理方法、装置、计算机设备及存储介质

    公开(公告)号:CN115964370A

    公开(公告)日:2023-04-14

    申请号:CN202211626032.3

    申请日:2022-12-15

    摘要: 本发明提供了一种数据表处理方法、装置、计算机设备及存储介质,所述处理方法应用于数据表处理系统,数据表处理系统包括:应用程序、数据库和设置于所述应用程序和所述数据库之间的映射层,且所述映射层用于分别与所述应用程序和所述数据库互相访问,数据表处理方法包括:当应用程序接收到访问请求时,在映射层中查询与访问请求对应的映射模型,根据查询结果,访问数据库,进行数据操作,得到数据信息,其中,映射模型用于存储应用程序的数据表和数据库的实体表之间的映射关系;在映射层中获取预设拆分标准和数据库返回的数据信息,根据预设拆分标准和数据库返回的数据信息进行分表操作,实现自动拆分,避免数据表请求耗时缓慢。

    一种基于Spark平台的多源数据同步方法、装置及系统

    公开(公告)号:CN114461596A

    公开(公告)日:2022-05-10

    申请号:CN202111596760.X

    申请日:2021-12-24

    发明人: 杨连群 张研

    IPC分类号: G06F16/178 G06F16/17

    摘要: 本发明提供了一种基于Spark平台的多源数据同步方法、装置及系统,涉及数据同步技术领域。本发明所述的基于Spark平台的多源数据同步方法,包括:基于Spark框架封装多种数据源接口,构建通用同步工具类jar包;根据同步工具参数要求配置同步参数生成JSON参数文件,根据所述JSON参数文件创建同步任务;通过调用所述通用同步工具类jar包触发所述同步任务执行,获取与所述同步任务对应的执行日志信息,根据所述执行日志信息判断是否同步成功。本发明所述的技术方案,通过封装多种数据源接口并采用同步参数配置化方法来简化数据同步任务,有效提高了多源数据同步执行效率,且涵盖了Spark平台下所有支持数据源的接入和输出方式,使得跨数据源整合处理变得高效便捷。

    单据数据分类的方法、装置、计算机设备及存储介质

    公开(公告)号:CN115935255A

    公开(公告)日:2023-04-07

    申请号:CN202211568127.4

    申请日:2022-12-08

    IPC分类号: G06F18/241 G06Q30/04

    摘要: 本发明涉及一种单据数据分类的方法、装置、计算机设备及存储介质,所述方法包括:获取单据数据,其中,所述单据数据包括行数据和所述行数据对应的数量值,判断每个所述行数据对应的所述数量值是否超过限额;若所述数量值没有超过所述限额,则保留所述行数据,若所述数量值超过所述限额,则拆分所述行数据;对所述行数据排序获取第一排序行数据,其中,所述第一排序行数据包括保留的所述行数据和拆分后的所述行数据;对所述第一排序行数据重新组合,获取重组单据数据。本发明以限额为基础,受票方更容易接受已开发票的内容,使得企业开票的发票张数最少。

    网络请求数据分类模型训练方法、分类方法及存储介质

    公开(公告)号:CN114528908A

    公开(公告)日:2022-05-24

    申请号:CN202111670119.6

    申请日:2021-12-31

    发明人: 陈昊天 张研

    IPC分类号: G06K9/62 G06F40/194 H04L9/40

    摘要: 本发明提供了一种网络请求数据分类模型训练方法、分类方法及存储介质,训练方法包括步骤:获取多条网络请求数据,并提取各条网络请求数据中的特征数据;采用预设的特征数据匹配规则对网络请求数据中的特征数据进行匹配,获得每条网络请求数据中特征数据的数量匹配结果;采用各条合法请求数据的请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型;采用第一计算模型计算请求地址数据的文本序列生成概率;根据数量匹配结果和文本序列生成概率生成各条网络请求数据的特征向量,采用特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型。本发明从多个维度对网络请求数据进行分析,有效提高了网络数据分类的准确性。