语义理解模型训练方法、装置、计算机设备和存储介质

    公开(公告)号:CN111444311B

    公开(公告)日:2024-11-01

    申请号:CN202010120133.8

    申请日:2020-02-26

    发明人: 邓悦 金戈 徐亮

    摘要: 本申请揭示了一种语义理解模型训练方法、装置、计算机设备和存储介质,其中方法包括从训练集中获取训练文本对应的总词序列;从总词序列中随机选取预设个数的连续词向量用掩码序列替代,得到输入词序列,并将预设个数的连续词向量作为测试输出词序列;将输入词序列输入至编码器‑注意力‑解码器模型中进行训练,得到预测输出词序列;根据预测输出词序列与测试输出词序列之间的差异,对编码器‑注意力‑解码器模型的模型参数进行调整以减小差异;返回将输入词序列输入至编码器‑注意力‑解码器模型中进行训练,得到预测输出词序列的步骤继续训练,直至满足预设训练停止条件则停止,得到语义理解模型。本申请提高了计算机对自然语言的理解准确度。

    信息推荐方法、装置、计算机设备及存储介质

    公开(公告)号:CN111445304B

    公开(公告)日:2024-07-05

    申请号:CN202010120620.4

    申请日:2020-02-26

    发明人: 邓悦 金戈 徐亮

    IPC分类号: G06Q30/0601 G06F18/23

    摘要: 本发明实施例公开了一种信息推荐方法、装置、计算机设备及存储介质。该方法属于智能决策技术领域,该方法包括:将消费管理服务器发送的训练样本集合输入到聚类模型中以聚类得到多个类;获取各类的特征距离;分别获取待测样本与各类的类心的距离;将多个类划分为多个包含两个类的组并筛选特征类以及特征组;分别将待推荐用户终端发送的待测样本聚类到各特征组的一类中;统计待测样本聚类到各特征类中的次数,并选取次数最高的特征类作为待测样本所属的类,并根据待测样本所属的类为待推荐用户终端推荐信息。通过筛选特征类,可过滤掉大多数距离待测样本较远的特征组,从而极大地降低了计算机的数据处理量,提高了计算机的处理速度。

    基于自编码器的异常检测方法、装置、设备及存储介质

    公开(公告)号:CN111709491B

    公开(公告)日:2024-05-14

    申请号:CN202010611195.9

    申请日:2020-06-30

    发明人: 邓悦 郑立颖 徐亮

    摘要: 本案涉及人工智能领域,提供一种基于自编码器的异常检测方法、装置、设备及存储介质。该方法包括:将无标记样本输入至编码器进行编码,随机为获得的无标记样本特征分配标签并分别输入至正样本解码器和负样本解码器解码,并计算无标记样本的重构误差,根据重构误差修改无标记样本的标签并修改编码器和解码器的网络参数,重新输入至编码器中进行重构,重复迭代,直到无标记样本的标签不再变化,并根据无标记样本的标签确定异常样本。本发明通过自编码器迭代重构而不是建立模型的方式来异常检测,避免了预置阈值难以确定和过拟合的问题,异常检测的准确率高,适用性强。此外,本发明还涉及区块链技术,检测后样本可存储于区块链中。

    基于标签的优化模型训练方法、装置、设备及存储介质

    公开(公告)号:CN112464637B

    公开(公告)日:2024-02-27

    申请号:CN202011353108.0

    申请日:2020-11-27

    发明人: 邓悦 郑立颖 徐亮

    摘要: 本发明涉及人工智能领域,公开了一种基于标签的优化模型训练方法、装置、设备及存储介质,用于提高目标优化模型的优化灵活性以及优化文本的准确率。基于标签的优化模型训练方法包括:获取原始文本数据和比对文本数据;将原始文本数据输入预置的编码器中,得到目标内容隐藏层向量组;根据目标内容隐藏层向量组和解码器,得到目标标签组;基于目标标签组训练初始优化模型;根据原始文本数据和初始优化模型,得到待检测文本数据,并判断待检测文本数据是否与比对文本数据相匹配;若目标待检测文本数据与比对文本数据不匹配,则调整初始优化模型,得到目标优化模型,此外,本发明还涉及区块链技术,待检测文本数据可存储于区块链中。

    时间序列异常点的检测方法、装置、设备及可读存储介质

    公开(公告)号:CN112131274B

    公开(公告)日:2024-01-19

    申请号:CN202011006800.6

    申请日:2020-09-22

    发明人: 邓悦 郑立颖 徐亮

    IPC分类号: G06F18/22 G06F18/2433

    摘要: 本发明涉及人工智能领域,具体共公开了一种时间序列异常点的检测方法、装置、计算机设备及计算机可读存储介质,该方法包括:获取待处理时间序列中的目标窗口,以及获取所述目标窗口对应的待处理窗口,其中,所述待处理窗口数量大于1;基于预置模型,根据所述目标窗口和待处理窗口确定所述目标窗口和待处理窗口之间的相似度值;根据所述相似度值,确定所述目标窗口对应的时间点是否为异常点;实现了通过获取时间序列中的目标窗口和待处理窗口,使采集到的样本序列相差较小,通过预置模型来确定目标窗口和待处理窗口的相似度值,避免得到的异常序列误差较大。

    基于文本匹配的智能面试方法、装置和计算机设备

    公开(公告)号:CN111027305B

    公开(公告)日:2023-12-19

    申请号:CN201911037921.4

    申请日:2019-10-29

    发明人: 邓悦 金戈 徐亮

    摘要: 本申请提供了一种基于文本匹配的智能面试方法、装置、计算机设备和计算接可读存储介质,涉及语义分析领域,其中方法包括:获取面试文本和标准文本;根据第一预设规则分别对所述面试文本和所述标准文本进行向量转化,得到所述面试文本对应的第一向量和所述标准文本对应的第二向量;计算所述第一向量和所述第二向量之间的相似度;根据所述相似度匹配对应的面试分数。本申请将面试文本和标准文本通过上述处理后得到的第一向量和第二向量,可以最大程度的表现出文本本身所要表达的词义,从而使得基于向量层面上的文本相似度匹配的精确度大幅度提高,实现智能面试的高精准性和客观性。

    多元KPI时间序列的检测方法、装置、设备及存储介质

    公开(公告)号:CN112131272B

    公开(公告)日:2023-11-10

    申请号:CN202011004044.3

    申请日:2020-09-22

    发明人: 邓悦 郑立颖 徐亮

    摘要: 本发明涉及人工智能技术领域,公开了一种多元KPI时间序列的检测方法、装置、计算机设备及计算机可读存储介质,该方法包括:通过根据预置切分策略和待训练的多元KPI时间序列,得到对应的待训练的多段子多元KPI时间序列,其中,待训练的子多元KPI时间序列为无标签;根据待训练的子多元KPI时间序列训练预置模型,生成对应的确定性模型;获取待检测的多元KPI时间序列;根据待检测的多元KPI时间序列和确定性模型,获取待检测的多元KPI时间序列中待检测数值的重建概率值;根据预置阈值和待检测数值的重建概率值,确定待检测数值对应的时刻是否为异常点,实现通过无标签的多元KPI时间序列生成确定性模型,增强了模型的鲁棒性,并提高了检测的准确率。

    基于自编码器的数据异常识别方法、装置和计算机设备

    公开(公告)号:CN112329865B

    公开(公告)日:2023-09-08

    申请号:CN202011242143.5

    申请日:2020-11-09

    发明人: 邓悦 郑立颖 徐亮

    摘要: 本申请涉及人工智能技术领域,提供一种基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,其中方法包括:接收输入的待检测的时间序列;基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架;通过自编码器集成框架计算出时间序列中包含的每一个向量所对应的异常分数值;根据异常分数值,识别出时间序列中是否存在异常数据值。通过本申请能够准确地识别出时间序列中是否存在异常数据值,有效地提高了对于时间序列中的异常数据值的识别准确性。本申请还涉及区块链领域,其中,所述自编码器集成框架可存储于区块链中。

    用户兴趣画像的构建方法、装置、计算机设备及计算机存储介质

    公开(公告)号:CN110222191B

    公开(公告)日:2023-08-22

    申请号:CN201910319421.3

    申请日:2019-04-19

    发明人: 邓悦 金戈 徐亮

    IPC分类号: G06F16/36 G06F16/9535

    摘要: 本申请公开了一种用户兴趣画像的构建方法、装置及计算机存储介质,涉及数据分析技术领域,可以排除网页文本中蕴含的干扰信息,提高用户兴趣画像构造的准确性。所述方法包括:获取用于反映各个兴趣点的本体概念词;当监控到用户浏览网页的行为操作时,将用户浏览网页的网页文本词映射到用于反映相应兴趣点的本体概念词上,得到用户在各个本体概念词上的兴趣值;通过分析预设时间段内映射到相同本体概念词上的网页本文词,对用户在各个本体概念词上的兴趣值进行筛选,得到用户在各个本体概念词上的有效兴趣值;根据所述用户在各个本体概念词上的有效兴趣值,构建用户兴趣画像。

    领域本体生成方法、装置、设备及介质

    公开(公告)号:CN110134943B

    公开(公告)日:2023-04-18

    申请号:CN201910265705.9

    申请日:2019-04-03

    发明人: 邓悦 金戈 徐亮

    IPC分类号: G06F40/30 G06F40/295

    摘要: 本发明公开了一种领域本体生成方法、装置、计算机设备及存储介质,该方法包括:获取领域信息,采用自然语言处理算法准确地提取领域关键字,根据动词领域关键字与名词领域关键字之间的搭配关系,获取名词领域关键字对应的目标物体的物体类型,在预设的词向量数据库中,获取名词领域关键字对应的属于物体类型下的目标词向量,因此可以根据不同的语境精准地确定出关键字的准确含义,获取到词向量,提高了获取词向量的准确性,采用预设的层次聚类算法生成领域词向量对应的层次聚类树作为领域本体,相似类别或相同类别的词向量得到了聚类,方便查询领域词向量,采用了计算机自动化处理机制,避免了人为主观因素的干扰,提高了领域本体的生成效率。