搜索网页的方法和计算机可读存储介质

    公开(公告)号:CN111666479A

    公开(公告)日:2020-09-15

    申请号:CN201910167209.X

    申请日:2019-03-06

    摘要: 本公开内容涉及信息提取和信息检索技术,更特别地,涉及网页内容的提取以及针对网页内容的检索。提出了一种通过至少一个处理器搜索网页的方法,包括:接收限定待搜索内容的信息;识别该信息中涉及的实体并确定实体的类别和属性;基于实体的类别和属性生成搜索条件;使用搜索条件在数据集中搜索以获得满足搜索条件的网页地址,其中从搜索所针对的网页集合中的每个网页中提取具有预设结构的网页部分以形成数据集。

    用于对文书进行事件标注的装置和方法及记录介质

    公开(公告)号:CN111538832A

    公开(公告)日:2020-08-14

    申请号:CN201910107264.X

    申请日:2019-02-02

    摘要: 公开了一种用于对文书进行事件标注的装置和方法及记录介质。用于对文书进行事件标注的装置包括:提取关键词单元,从每个类别的文书分别提取至少一个关键词;提取语句单元,从指定类别的文书提取包括针对指定类别所提取出的任意关键词的多个语句;聚类单元,基于针对属于指定类别的文书所提取出的多个语句之间的相似度,对多个语句进行聚类;选择单元,从每个聚类后的语句分组中分别选择预定数量的语句,并且在所选的预定数量的语句中标注事件信息;以及匹配单元,针对每个聚类后的语句分组,将所选的预定数量的语句中所标注的事件信息匹配到该语句分组中的所有其他语句,从而对该语句分组中的所有语句标注事件信息。

    检测特定动作的方法和设备

    公开(公告)号:CN108960016A

    公开(公告)日:2018-12-07

    申请号:CN201710378870.6

    申请日:2017-05-25

    IPC分类号: G06K9/00

    摘要: 本发明公开了一种检测特定动作的方法和设备。该方法包括:将所收集的动作数据划分为多个具有预定时间长度的序列;确定每个序列的峰值;对于彼此距离小于预定时间长度的两个相邻峰值,去除所述两个相邻峰值之中较小的一个,直至所有峰值中每两个相邻峰值之间的距离都大于或等于预定时间长度;以及基于剩余峰值,确定代表特定动作的检测数据。

    模型更新装置及方法、数据处理装置及方法、程序

    公开(公告)号:CN104699685B

    公开(公告)日:2018-02-09

    申请号:CN201310647831.3

    申请日:2013-12-04

    IPC分类号: G06F17/30

    摘要: 本申请公开了一种模型更新装置及方法、数据处理装置及方法,用于对多模型系统中的目标模型进行更新,其中,多模型系统中的各个模型是针对训练数据集采用不同方式预先训练得到的模型,该模型更新装置包括:伪标签获取单元,使用校准模型对待测数据集进行处理,并将处理的结果作为伪标签;第一特征分布获取单元,基于伪标签获得待测数据集的特征分布;第二特征分布获取单元,基于目标模型获取训练数据集的特征分布;调整单元,基于训练数据集的特征分布和待测数据集的特征分布来调整目标模型的特征空间划分,以使得训练数据集和待测数据集针对该特征空间划分具有类似的分布;以及更新单元,基于调整后的特征空间划分使用训练数据集来更新目标模型。

    挖掘图片中的主题关键词的方法和设备

    公开(公告)号:CN103544186B

    公开(公告)日:2017-03-01

    申请号:CN201210246688.2

    申请日:2012-07-16

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种挖掘图片中的主题关键词的方法和设备。挖掘图片中的主题关键词的方法包括:初始检索词识别步骤,识别图片中的关键词作为初始的检索词;候选关键词提取步骤,利用检索词检索与图片相关的主题网页以从中提取候选关键词;检索词选择步骤,根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词;以及重复候选关键词提取步骤和检索词选择步骤直到满足预定条件。

    数据处理方法和数据处理设备

    公开(公告)号:CN103514192B

    公开(公告)日:2017-03-01

    申请号:CN201210212254.0

    申请日:2012-06-21

    IPC分类号: G06F17/30

    摘要: 公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。

    数据样本的特征增强方法和装置及分类器训练方法和装置

    公开(公告)号:CN106294490A

    公开(公告)日:2017-01-04

    申请号:CN201510309500.8

    申请日:2015-06-08

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本发明公开了一种对数据样本进行特征增强的方法和装置以及分类器的训练方法和装置。根据本发明的一个方面,对数据样本进行特征增强的方法包括:针对预设的多个类中的每一类,计算多个数据样本的基准分布;计算所述多个数据样本在特征空间上的特征分布;以及基于所述基准分布和所述特征分布,对属于该类的少数数据样本中的至少一部分数据样本的特征进行修改以增强特征。由此,能够增强不均衡数据集中的少数数据样本的特征,从而使得该不均衡的数据集可用于训练诸如分类器的数据挖掘工具,并取得较好的效果。

    对待测数据样本进行分类的方法和装置

    公开(公告)号:CN106156783A

    公开(公告)日:2016-11-23

    申请号:CN201510136857.0

    申请日:2015-03-26

    IPC分类号: G06K9/62

    摘要: 本发明公开了对待测数据样本进行分类的方法和装置。根据本发明的一个方面,对待测数据样本进行分类的方法包括:计算多个分类器中的每个分类器对所述待测数据样本的胜任值;以及根据每个分类器对所述待测数据样本的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。

    数据处理设备和数据处理方法

    公开(公告)号:CN106033425A

    公开(公告)日:2016-10-19

    申请号:CN201510106455.6

    申请日:2015-03-11

    发明人: 孙健 夏迎炬 杨铭

    IPC分类号: G06F17/30

    摘要: 提供一种数据处理设备和数据处理方法。数据处理设备包括:获取装置,用于根据预定规则选择历史数据作为训练数据集并且将所述历史数据划分为子训练数据集和子测试数据集,根据所述子训练数据集中数据的属性或属性的组合获取关于数据类型的信息,并且针对每个数据类型,通过利用在该数据类型下去噪后的子训练数据集所训练的分类器对所述子测试数据集进行预测并验证预测结果,以获得具有最优预测结果的最优数据类型;以及训练数据集选择装置,通过在该最优数据类型下对所述训练数据集中的数据进行去噪,来获得类别比例满足预定条件的训练数据集,以通过利用该满足预定条件的训练数据集所训练的分类器对测试数据集进行分类。

    一种分批聚类方法和系统
    10.
    发明授权

    公开(公告)号:CN102867006B

    公开(公告)日:2016-04-13

    申请号:CN201110189562.1

    申请日:2011-07-07

    IPC分类号: G06F17/30

    摘要: 本发明实施例提供一种分批聚类方法和系统,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。本实施例的分批聚类方法,通过对要聚类的文档进行分批聚类、批聚类结果的凝聚性处理以及批凝聚性处理结果的合并,提高了聚类性能,实现了增量式的聚类。