一种模型训练方法、设备及介质
    1.
    发明公开

    公开(公告)号:CN118797464A

    公开(公告)日:2024-10-18

    申请号:CN202310994307.7

    申请日:2023-08-08

    摘要: 本发明提供一种模型训练方法、设备以及介质,涉及人工智能领域,其中,所述模型训练方法包括:利用第一训练数据集,对初始模型进行训练,得到第一模型;在需要利用第二数据集对所述第一模型进行更新的情况下,利用所述第一模型对所述第二数据集进行筛选,得到目标数据集,所述目标数据集包括所述第二数据集中的部分第二数据;获取所述目标数据集中每个目标数据的数据标签,得到所述目标数据集对应的目标训练数据集;利用所述目标训练数据集,对所述第一模型进行训练,得到第二模型。本发明实施例,利用机器模型实现数据筛选,基于机器模型的筛选结果进行数据标记,能够减少监督学习过程中的数据标记需求,提高模型训练效率。

    录音通知故障的检测方法、装置、设备和介质

    公开(公告)号:CN110493810A

    公开(公告)日:2019-11-22

    申请号:CN201810461619.0

    申请日:2018-05-15

    发明人: 饶亮 陈光 李轶璋

    IPC分类号: H04W24/06 H04M3/28

    摘要: 本发明公开了一种录音通知故障的检测方法、装置、设备和介质。该方法包括:建立VoLTE网络下的虚拟拨测场景,配置虚拟拨测场景需要的主叫端信息和需要的被叫端信息,并确定与虚拟拨测场景对应的标准录音通知的标识信息,主叫端和被叫端的一端为VoLTE终端,主叫端和被叫端的另一端为VoLTE终端、2G/3G终端或IMS固网终端;将主叫端信息和被叫端信息发送至核心网;接收由核心网根据主叫端信息和被叫端信息返回的实际录音通知的标识信息;根据标准录音通知的标识信息和实际录音通知的标识信息确定录音通知故障。根据本发明实施例提供的录音通知故障的检测方法、装置、设备和介质,能够智能、高效、低成本、全面的对VoLTE网络下的录音通知故障进行检测。

    录音通知故障的检测方法、装置、设备和介质

    公开(公告)号:CN110493810B

    公开(公告)日:2022-06-14

    申请号:CN201810461619.0

    申请日:2018-05-15

    发明人: 饶亮 陈光 李轶璋

    IPC分类号: H04W24/06 H04M3/28

    摘要: 本发明公开了一种录音通知故障的检测方法、装置、设备和介质。该方法包括:建立VoLTE网络下的虚拟拨测场景,配置虚拟拨测场景需要的主叫端信息和需要的被叫端信息,并确定与虚拟拨测场景对应的标准录音通知的标识信息,主叫端和被叫端的一端为VoLTE终端,主叫端和被叫端的另一端为VoLTE终端、2G/3G终端或IMS固网终端;将主叫端信息和被叫端信息发送至核心网;接收由核心网根据主叫端信息和被叫端信息返回的实际录音通知的标识信息;根据标准录音通知的标识信息和实际录音通知的标识信息确定录音通知故障。根据本发明实施例提供的录音通知故障的检测方法、装置、设备和介质,能够智能、高效、低成本、全面的对VoLTE网络下的录音通知故障进行检测。

    一种基于策略价值网络和树搜索增强的命名实体识别方法

    公开(公告)号:CN110209770B

    公开(公告)日:2022-04-15

    申请号:CN201910478860.9

    申请日:2019-06-03

    IPC分类号: G06F16/33 G06F16/36

    摘要: 本发表公开了一种基于策略价值网络的命名实体识别方法,属于信息处理领域。该方法首先将命名实体识别的标注过程建模成马尔科夫决策过程(MDP),提出了一种新颖的基于强化学习的命名实体识别模型,称为MM‑NER。MM‑NER是第一个将将蒙特卡洛树搜索(MCTS)增强型MDP模型应用于命名实体识别(序列标记任务)的工作。它基于MDP状态定义设计了一个策略价值网络来获得标签概率和标注序列准确度评估,并利用MCTS进行模拟,进而搜索出一个更具全局意识的标注序列。在推断过程,直接使用策略价值网络可以保证识别效果与树搜索策略基本一致,并大大降低时间复杂度。本发明在CoNLL2003命名实体识别数据集上的实验结果,证明了拥有K步探索决策机制的MM‑NER的有效性。

    负例训练样本采集方法、装置及模型训练方法、装置

    公开(公告)号:CN109165309A

    公开(公告)日:2019-01-08

    申请号:CN201810885541.5

    申请日:2018-08-06

    IPC分类号: G06F16/55 G06F16/583

    摘要: 本发明实施例提供了负例训练样本采集方法和模型训练方法。负例训练样本采集方法包括:对表示向量进行聚类,确定目标向量所属的第一聚类及中心,从而确定候选聚类的目标概率,从候选向量中抽取多个第二聚类,并从每个第二聚类中获取一个负例训练样本。模型训练方法包括:确定多组训练样本;基于训练样本对初始图像检索模型进行训练,在迭代到一定次数时,若模型没有训练完成,重新确定训练样本继续训练,直至模型训练完成。与现有技术相比,应用本发明实施例提供的方案,采集负例训练样本时,可以在兼顾各个不同难度水平的负例训练样本的同时,优先采集“难”的负例训练样本,进而提高基于负例训练样本训练得到的图像检索模型的准确率。

    针对视频网站的广域网爬虫系统

    公开(公告)号:CN101446954B

    公开(公告)日:2010-09-08

    申请号:CN200810180826.5

    申请日:2008-11-25

    发明人: 杨溥 郭军 陈光

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术——转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分——视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。

    针对视频网站的广域网爬虫系统

    公开(公告)号:CN101446954A

    公开(公告)日:2009-06-03

    申请号:CN200810180826.5

    申请日:2008-11-25

    发明人: 杨溥 郭军 陈光

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。

    基于疑问词分类器的神经网络问题生成方法及生成系统

    公开(公告)号:CN113094489A

    公开(公告)日:2021-07-09

    申请号:CN202110498928.7

    申请日:2021-05-08

    摘要: 基于疑问词分类器的神经网络问题生成方法及生成系统,涉及互联网技术领域,解决现有基于分类器的网络模型存在生成问题中的疑问词不准确,导致存在根本性错误等问题,生成系统包括答案位置标注模块、疑问词分类器、疑问词添加模块以及神经网络问题生成模型;本发明在神经网络问题生成任务的基础上,将疑问词预测任务建模为一个独立的分类任务,即在神经网络问题生成模型之前,引入一个疑问词分类器,先通过疑问词分类器识别最可能提问的疑问词,再生成完整的问题。目的是提高疑问词生成的准确率和可解释性,最终减小所生成问题和真实问题的差异,提高问题的质量。

    建模对话轮次信息的检索式闲聊对话打分方法

    公开(公告)号:CN110309287B

    公开(公告)日:2021-07-06

    申请号:CN201910612036.8

    申请日:2019-07-08

    摘要: 本发明提供了一种引入对话历史信息的局部注意力机制的检索式对话系统,在开放领域的检索式对话中,传统的模型分为表示层,匹配层,集成层,预测层中,最后从候选集中选出和对话最匹配的候选回复。将表示层划分成单句表示和句间关系两部分进行分别建模。在建模对话的轮次信息时使用局部注意力机制,使得在训练模型时,注意力机制能够获得对于匹配任务更有帮助的轮次信息。局部注意力机制也能够提高模型对整个对话中不同位置内容的关注能力。针对对话中的每部分内容,对重要信息赋予较大权重,次要信息或干扰信息赋予较小权重,实现更好的回复匹配,加快训练速度,提高模型效率。

    负例训练样本采集方法、装置及模型训练方法、装置

    公开(公告)号:CN109165309B

    公开(公告)日:2020-10-16

    申请号:CN201810885541.5

    申请日:2018-08-06

    IPC分类号: G06F16/55 G06F16/583

    摘要: 本发明实施例提供了负例训练样本采集方法和模型训练方法。负例训练样本采集方法包括:对表示向量进行聚类,确定目标向量所属的第一聚类及中心,从而确定候选聚类的目标概率,从候选向量中抽取多个第二聚类,并从每个第二聚类中获取一个负例训练样本。模型训练方法包括:确定多组训练样本;基于训练样本对初始图像检索模型进行训练,在迭代到一定次数时,若模型没有训练完成,重新确定训练样本继续训练,直至模型训练完成。与现有技术相比,应用本发明实施例提供的方案,采集负例训练样本时,可以在兼顾各个不同难度水平的负例训练样本的同时,优先采集“难”的负例训练样本,进而提高基于负例训练样本训练得到的图像检索模型的准确率。