-
公开(公告)号:CN110209770B
公开(公告)日:2022-04-15
申请号:CN201910478860.9
申请日:2019-06-03
申请人: 北京邮电大学
摘要: 本发表公开了一种基于策略价值网络的命名实体识别方法,属于信息处理领域。该方法首先将命名实体识别的标注过程建模成马尔科夫决策过程(MDP),提出了一种新颖的基于强化学习的命名实体识别模型,称为MM‑NER。MM‑NER是第一个将将蒙特卡洛树搜索(MCTS)增强型MDP模型应用于命名实体识别(序列标记任务)的工作。它基于MDP状态定义设计了一个策略价值网络来获得标签概率和标注序列准确度评估,并利用MCTS进行模拟,进而搜索出一个更具全局意识的标注序列。在推断过程,直接使用策略价值网络可以保证识别效果与树搜索策略基本一致,并大大降低时间复杂度。本发明在CoNLL2003命名实体识别数据集上的实验结果,证明了拥有K步探索决策机制的MM‑NER的有效性。
-
公开(公告)号:CN109165309A
公开(公告)日:2019-01-08
申请号:CN201810885541.5
申请日:2018-08-06
申请人: 北京邮电大学
IPC分类号: G06F16/55 , G06F16/583
摘要: 本发明实施例提供了负例训练样本采集方法和模型训练方法。负例训练样本采集方法包括:对表示向量进行聚类,确定目标向量所属的第一聚类及中心,从而确定候选聚类的目标概率,从候选向量中抽取多个第二聚类,并从每个第二聚类中获取一个负例训练样本。模型训练方法包括:确定多组训练样本;基于训练样本对初始图像检索模型进行训练,在迭代到一定次数时,若模型没有训练完成,重新确定训练样本继续训练,直至模型训练完成。与现有技术相比,应用本发明实施例提供的方案,采集负例训练样本时,可以在兼顾各个不同难度水平的负例训练样本的同时,优先采集“难”的负例训练样本,进而提高基于负例训练样本训练得到的图像检索模型的准确率。
-
公开(公告)号:CN101446954B
公开(公告)日:2010-09-08
申请号:CN200810180826.5
申请日:2008-11-25
申请人: 北京邮电大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术——转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分——视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。
-
公开(公告)号:CN101446954A
公开(公告)日:2009-06-03
申请号:CN200810180826.5
申请日:2008-11-25
申请人: 北京邮电大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。
-
公开(公告)号:CN113094489A
公开(公告)日:2021-07-09
申请号:CN202110498928.7
申请日:2021-05-08
申请人: 北京邮电大学
IPC分类号: G06F16/332 , G06F16/35 , G06N3/04 , G06N3/08
摘要: 基于疑问词分类器的神经网络问题生成方法及生成系统,涉及互联网技术领域,解决现有基于分类器的网络模型存在生成问题中的疑问词不准确,导致存在根本性错误等问题,生成系统包括答案位置标注模块、疑问词分类器、疑问词添加模块以及神经网络问题生成模型;本发明在神经网络问题生成任务的基础上,将疑问词预测任务建模为一个独立的分类任务,即在神经网络问题生成模型之前,引入一个疑问词分类器,先通过疑问词分类器识别最可能提问的疑问词,再生成完整的问题。目的是提高疑问词生成的准确率和可解释性,最终减小所生成问题和真实问题的差异,提高问题的质量。
-
公开(公告)号:CN110309287B
公开(公告)日:2021-07-06
申请号:CN201910612036.8
申请日:2019-07-08
申请人: 北京邮电大学
IPC分类号: G06F16/332 , G06F40/211 , G06F40/242 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本发明提供了一种引入对话历史信息的局部注意力机制的检索式对话系统,在开放领域的检索式对话中,传统的模型分为表示层,匹配层,集成层,预测层中,最后从候选集中选出和对话最匹配的候选回复。将表示层划分成单句表示和句间关系两部分进行分别建模。在建模对话的轮次信息时使用局部注意力机制,使得在训练模型时,注意力机制能够获得对于匹配任务更有帮助的轮次信息。局部注意力机制也能够提高模型对整个对话中不同位置内容的关注能力。针对对话中的每部分内容,对重要信息赋予较大权重,次要信息或干扰信息赋予较小权重,实现更好的回复匹配,加快训练速度,提高模型效率。
-
公开(公告)号:CN109165309B
公开(公告)日:2020-10-16
申请号:CN201810885541.5
申请日:2018-08-06
申请人: 北京邮电大学
IPC分类号: G06F16/55 , G06F16/583
摘要: 本发明实施例提供了负例训练样本采集方法和模型训练方法。负例训练样本采集方法包括:对表示向量进行聚类,确定目标向量所属的第一聚类及中心,从而确定候选聚类的目标概率,从候选向量中抽取多个第二聚类,并从每个第二聚类中获取一个负例训练样本。模型训练方法包括:确定多组训练样本;基于训练样本对初始图像检索模型进行训练,在迭代到一定次数时,若模型没有训练完成,重新确定训练样本继续训练,直至模型训练完成。与现有技术相比,应用本发明实施例提供的方案,采集负例训练样本时,可以在兼顾各个不同难度水平的负例训练样本的同时,优先采集“难”的负例训练样本,进而提高基于负例训练样本训练得到的图像检索模型的准确率。
-
公开(公告)号:CN110309287A
公开(公告)日:2019-10-08
申请号:CN201910612036.8
申请日:2019-07-08
申请人: 北京邮电大学
IPC分类号: G06F16/332 , G06F17/27 , G06N3/04 , G06N3/08
摘要: 本发明提供了一种引入对话历史信息的局部注意力机制的检索式对话系统,在开放领域的检索式对话中,传统的模型分为表示层,匹配层,集成层,预测层中,最后从候选集中选出和对话最匹配的候选回复。将表示层划分成单句表示和句间关系两部分进行分别建模。在建模对话的轮次信息时使用局部注意力机制,使得在训练模型时,注意力机制能够获得对于匹配任务更有帮助的轮次信息。局部注意力机制也能够提高模型对整个对话中不同位置内容的关注能力。针对对话中的每部分内容,对重要信息赋予较大权重,次要信息或干扰信息赋予较小权重,实现更好的回复匹配,加快训练速度,提高模型效率。
-
公开(公告)号:CN101404026A
公开(公告)日:2009-04-08
申请号:CN200810180825.0
申请日:2008-11-25
申请人: 北京邮电大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种可预览视频搜索引擎的爬虫系统的构建方法,该方法包括下列步骤:(1)超链接映射成列表;(2)检测列表状态;(3)摘要图片处理;(4)视频处理;(5)视频标题处理。通过应用本发明所描述的方法,可以为可预览视频搜索引擎的爬虫系统提供通用的设计方法;可以为可预览视频搜索引擎提供预览型数据集,简化可预览视频搜索引擎的其他部分的设计和开发,大幅度地降低可预览视频搜索引擎爬虫系统和可预览视频搜索引擎的开发成本。
-
公开(公告)号:CN115270752A
公开(公告)日:2022-11-01
申请号:CN202210892831.9
申请日:2022-07-27
申请人: 北京邮电大学
IPC分类号: G06F40/194 , G06F40/186 , G06F40/253 , G06F40/30 , G06K9/62 , G06N3/04
摘要: 本发明公开了一种基于多层次对比学习的模板句评估方法,首先基于样本层次和类别层次的对比学习,在少样本的场景下,利用数据增强技术构建对应的数据集,利用对比学习自动训练学习数据特性,获得具有一定表征能力的语义编码器,然后将少量的原始样本输入编码器获得特征向量,考虑代表性、区分度和句长三个维度的特征,在语义空间中将代表性建模为平均类内距、将区分度建模为平均类间距进行量化,最终使用加权量化值之和作为评估分数。该方法能够将样本间的数据特征纳入考虑,从训练集中选出最适合作为模板句的样本,最终减少由于随机选取模板句带来的不稳定性,有效提升以模板句作为组件的应用模型效果,语义编码器的可解释性和表征能力可通过可视化进行验证。
-
-
-
-
-
-
-
-
-