一种结合机器学习和投机采样的大模型推理加速方法及系统

    公开(公告)号:CN118657220A

    公开(公告)日:2024-09-17

    申请号:CN202411110911.X

    申请日:2024-08-14

    发明人: 解书贵 王子斌

    摘要: 本发明公开了一种结合机器学习和投机采样的大模型推理加速方法及系统,其中方法包括:根据检索出的本地知识构建n‑gram语言模型;n‑gram语言模型推理阶段根据给定文字token,预测下一个token在词表中的概率分布,并采样预测下一个token;基于构建的n‑gram模型和大模型,实现投机采样算法,加速大模型推理。与当前的主流方法相比,本发明生成的内容相比较于现有投机采样算法所使用的近似小模型,更加可靠,其计算量少且减少了内存访问的需求,速度更快。本发明还进一步分别将改进的投机采样算法应用于transformers库和推理框架vLLM,推理速度获得进一步提升。

    一种基于相似度算法的数据分类分级方法

    公开(公告)号:CN118349879A

    公开(公告)日:2024-07-16

    申请号:CN202410778344.9

    申请日:2024-06-17

    摘要: 本发明涉及一种基于相似度算法的数据分类分级方法,利用相似度算法实现对数据资产进行分类分级的方法,引入特征项库和相似度算法模块,通过数据采集模块读取海量元数据,对海量元数据的字段名称和字段描述内容进行定制化数据清洗和标准化预处理后得到标准特征项库;再通过相似度算法模块对每个特征项与规则语料库进行相似度计算,得到特征项的分类分级结果,进而得到特征项对应数据的分类分级结果。针对不同级别的数据,用户制定不同等级的安全策略。该技术方案通过相似度计算模块对元数据集进行快速、自动分类分级的方法,从而降低人工成本,提高数据分类分级的效率和准确率。

    一种自动监测和修复嵌入式设备中serdes对接异常的方法和系统

    公开(公告)号:CN117724886A

    公开(公告)日:2024-03-19

    申请号:CN202311688318.9

    申请日:2023-12-11

    发明人: 杨栋

    IPC分类号: G06F11/07

    摘要: 本发明公开了一种自动监测和修复嵌入式设备中serdes对接异常的方法和系统,通过软件驱动层设置,定期轮询扫描两芯片指定的对接端口两侧的serdes link状态,up或者down,自动监测和判断对接是否发生异常,然后进行修复;当对接端口两侧的serdes link状态不相同时记录为对接异常,累积异常次数,达到设定次数时对两侧serdes进行restart操作、reset操作、disable后enable操作等合适的动作进行修复,清空异常累积计数;这样在很大程度上减少了人为检查异常和修复操作,并且能够在发生对接异常的情况后及时进行修复,极大程度上减少异常或故障的持续时间,避免导致更大程度的系统级故障;本发明仅针对系统运行过程中两芯片端口对接偶现的不稳定状态进行修复,一侧serdes为up状态,另一侧serdes为down状态。

    基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统

    公开(公告)号:CN111198947B

    公开(公告)日:2024-02-13

    申请号:CN202010008497.7

    申请日:2020-01-06

    IPC分类号: G06F16/35 G06N3/0464 G06N3/08

    摘要: 本发明公开了一种基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统,建立模板库,将待判别短信与模板库中的短信模板进行匹配分类;模板匹配失败的短信通过textCNN模型进行二次判别,经textCNN模型判别成功的短信完成分类,确定为诈骗短信;textCNN模型判别失败的短信通过计算贝叶斯概率进行再次分类,贝叶斯概率未成功分类的短信,则确定为非诈骗短信。本发明实现了朴素贝叶斯与textCNN并行的短信诈骗分类的方案,且通过关键字的统计生成模板对整个模型进行优化,同时还能进行模板库自增实现自学习,使得短信诈骗分类准确率和召回率都得到大幅度提高。

    一种基于总线矩阵的数据模型自动构建系统及方法

    公开(公告)号:CN117033460A

    公开(公告)日:2023-11-10

    申请号:CN202310984137.4

    申请日:2023-08-07

    摘要: 本发明公开一种基于总线矩阵的数据模型自动构建系统及方法,该系统包括:用户端、服务端和数仓端,所述服务端用于提炼原始指标需求并构建总线矩阵,并将总线矩阵传输到服务端,所述服务端对所述总线矩阵进行完整性校验和数据校验,并同时将总线矩阵保存到分布式文件系统中,若校验失败,则结束,并重新构建总线矩阵,若校验成功,则对总线矩阵中生成的模型进行解析,并将模型保存到关系型数据库中,模型被解析完成后,进而生成各个模型对应的物理数据。该方法构建的数据模型只需要根据业务需要,制定业务所需的模型字段,快速构建最小单元的维度/事实表模型结构,生成的模型字段少,标准化、通用化程度高,快速构建数仓以支撑上层应用。

    一种主被动探测结合的资产发现系统及方法

    公开(公告)号:CN116599775B

    公开(公告)日:2023-10-17

    申请号:CN202310868729.X

    申请日:2023-07-17

    摘要: 本发明公开了一种主被动探测结合的资产发现系统及方法,系统包括主动探测模块、被动探测模块、日志模块、日志解析模块和控制模块,通过主动探测模块和被动探测模块获取网络资产的MAC地址、IP、运行服务、主机名、操作系统、设备类型、通联频率、流量大小等资产信息;再通过日志模块和日志解析模块将两种资产探测发现的结果进行汇聚合并,完善资产信息,提取被动资产发现结果中的关键信息,反馈到主动发现模块中去,实现对重点资产信息的深度挖掘。本发明的主动探测模块和被动探测模块耦合度低,由控制模块统一调度,系统可根不同网络环境灵活、自由地组合和部署;突破了单一资产探测方式的局限性,能够显著提高探测效率和探测结果的准确性。

    一种基于卷积神经网络的诈骗号码识别方法及系统

    公开(公告)号:CN111222025B

    公开(公告)日:2023-06-27

    申请号:CN201911375190.4

    申请日:2019-12-27

    摘要: 本发明公开了一种基于卷积神经网络的诈骗号码识别方法以及识别系统,其中识别方法包括:1、建立训练样本集:获取已知为客服号码、私人号码与诈骗号码三种类别的多个号码,获取每个号码连续N天的通话数据和M个通话特征,构建N*M的特征矩阵并转换为特征图,特征图以及号码类别构成一个训练样本;2、建立诈骗号码识别模型,采用训练样本集对诈骗号码识别模型进行训练;3、获取待识别电话号码连续N天的通话数据和M个通话特征,构建N*M的特征矩阵,并转换为特征图;4、采用训练好的模型对待识别号码的特征图进行分类识别,得到类别标签。该方法通过深度学习提取出诈骗号码与客服号码和普通私人号码的区别特征以及区别特征的组合,能够准确识别出诈骗号码。

    PDF扫描件内容识别方法及装置
    8.
    发明公开

    公开(公告)号:CN116311305A

    公开(公告)日:2023-06-23

    申请号:CN202310268433.4

    申请日:2023-03-20

    摘要: 本发明公开了一种PDF扫描件内容识别方法及装置,方法包括:(1)将PDF扫描件转换为图片;(2)利用横向像素点之和的方差变化情况,进行图片的方向纠偏;(3)基于预设第一模型进行版面分析,识别到图片中的印章、表格、目录标题和正文;(4)采用预设第二模型将图片中识别到的印章去除;(5)通过表格外轮廓以及内部单元轮廓的查找并定位到单元格位置,提取出表格中文本并填充到对应单元格,完成表格内容识别;(6)采用预设第三模型将识别的目录标题和正文生成层级目录结构,完成内容识别。本发明速度更快,识别准确率更高。

    一种线性和非线性调频雷达信号的实时识别方法

    公开(公告)号:CN115616490B

    公开(公告)日:2023-06-09

    申请号:CN202211251239.7

    申请日:2022-10-13

    发明人: 顾欢欢 严伟

    IPC分类号: G01S7/02

    摘要: 本发明公开了一种线性和非线性调频雷达信号的实时识别方法,包括如下步骤:以帧为单位,提取每帧数据;判断每帧数据中是否存在疑似雷达信号;判断疑似雷达信号是否能够提取出有效脉内数据;计算有效脉内数据的中心频点、带宽;判断有效脉内数据是否存在无调制、二相调制、四相调制类信号;根据中心频点、带宽、采样率、有效脉内数据,计算得到相位角序列;计算相位角序列的三角形的高度及斜率绝对误差值,从而判断有效脉内数据是线性调频雷达信号或非线性调频雷达信号。本发明解决了现有技术中线性和非线性调频雷达信号难以区分的问题,同时增加了计算的可靠性,使计算简单,实时处理。

    多卡宝号码识别方法、装置

    公开(公告)号:CN113194458B

    公开(公告)日:2022-05-13

    申请号:CN202110377236.7

    申请日:2021-04-08

    摘要: 本发明公开了一种多卡宝号码识别方法、装置,所述方法包括:获取样本中每个样本号码取样周期内的短期时序特征和长期时序特征;将短期时序特征和长期时序特征进行拼接获得相应的特征矩阵;将存在通联关系的样本号码特征矩阵输入图注意力网络,输入号码的特征更新为与输入号码通联的号码特征的加权和;将样本号码的特征输入transformer模型,将号码所有日期的特征进行融合后输出,再经过全连接层输出结果,确定样本号码是否为多卡宝号码。采用上述技术方案,可以准确、快速地识别号码是否为多卡宝号码。