评价中间语的词语的方法和装置以及机器翻译方法和设备

    公开(公告)号:CN104123274B

    公开(公告)日:2018-06-12

    申请号:CN201310150456.1

    申请日:2013-04-26

    IPC分类号: G06F17/28

    摘要: 本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁,其中,中间语的词语的可靠性是该中间语的词语成为将源语言的特定词语翻译成目标语的词语的桥梁的可能性与语义准确性的平衡。

    音节划分方法和音节划分设备

    公开(公告)号:CN104239289B

    公开(公告)日:2017-08-29

    申请号:CN201310252998.X

    申请日:2013-06-24

    IPC分类号: G06F17/28

    摘要: 本发明公开了音节划分方法和音节划分设备。根据本发明的音节划分方法包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。

    数据处理方法和设备
    4.
    发明授权

    公开(公告)号:CN103514168B

    公开(公告)日:2017-05-03

    申请号:CN201210203751.4

    申请日:2012-06-15

    发明人: 张波 孟遥 于浩

    IPC分类号: G06F17/30

    摘要: 一种数据处理方法和设备,该方法包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本发明,可以通过自适应方式调整分类模型,提高了数据处理效率和信息获取的准确度。

    挖掘图片中的主题关键词的方法和设备

    公开(公告)号:CN103544186B

    公开(公告)日:2017-03-01

    申请号:CN201210246688.2

    申请日:2012-07-16

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种挖掘图片中的主题关键词的方法和设备。挖掘图片中的主题关键词的方法包括:初始检索词识别步骤,识别图片中的关键词作为初始的检索词;候选关键词提取步骤,利用检索词检索与图片相关的主题网页以从中提取候选关键词;检索词选择步骤,根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词;以及重复候选关键词提取步骤和检索词选择步骤直到满足预定条件。

    数据处理方法和数据处理设备

    公开(公告)号:CN103514192B

    公开(公告)日:2017-03-01

    申请号:CN201210212254.0

    申请日:2012-06-21

    IPC分类号: G06F17/30

    摘要: 公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。

    校正语料中的成语错误的装置和方法

    公开(公告)号:CN103853702B

    公开(公告)日:2016-08-17

    申请号:CN201210520870.2

    申请日:2012-12-06

    IPC分类号: G06F17/27

    摘要: 本申请公开了一种校正语料中的成语错误的装置和方法,该装置包括:变形成语检测单元,检测语料中成语的变形;第一判断单元,判断成语的变形是否存在于近义词词典或易混淆词词典中;语义相似确定单元,在确定成语的变形不在近义词词典和易混淆词词典中时,确定其与原成语之间的语义是否相似;第二判断单元,在确定成语的变形与原成语之间的语义不相似时,确定其不正确,否则确定其正确;语音相似度计算单元,在确定成语的变形不正确的情况下,计算成语的变形与原成语之间的语音相似度;字形相似度计算单元,在确定成语的变形不正确的情况下,计算其与原成语之间的字形相似度;以及校正单元,在确定成语的变形不正确的情况下,校正成语的变形。

    确定语料与实体的相关性的方法和装置及分类器训练方法

    公开(公告)号:CN103514194B

    公开(公告)日:2016-08-17

    申请号:CN201210212662.6

    申请日:2012-06-21

    发明人: 张姝 孟遥 于浩

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种确定语料与实体的相关性的方法和装置及分类器训练方法。所述确定相关性的方法包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对第二组语料进行分类,以确定第二组语料中的每个语料与第一给定实体的相关性,从而得到作为对第二组语料的标注结果的机器标注语料;基于所述通用特征和从机器标注语料中选取的与第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用机器标注语料,训练针对第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。

    网页抓取方法及爬虫
    9.
    发明授权

    公开(公告)号:CN103294732B

    公开(公告)日:2016-08-03

    申请号:CN201210056060.6

    申请日:2012-03-05

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种网页抓取方法及爬虫。所述方法包括如下步骤:将种子URL注入到Web数据库中;基于Web数据库生成URL列表;按队列的顺序将URL列表中的URL馈送给网页抓取器;由网页抓取器、按照网页对应的访问模式、根据被馈送的URL来对网页进行抓取;以及基于所抓取的网页,更新Web数据库中URL的状态以及注入新发现的URL;其中,所述访问模式包括请求参数槽、响应参数槽、以及请求参数槽与响应参数槽的对应关系,请求参数槽中包括请求参数、以及请求参数槽与响应参数槽的匹配关系,响应参数槽中包括响应参数、以及关于响应参数在http响应消息中的提取位置的提取位置信息。

    一种分批聚类方法和系统
    10.
    发明授权

    公开(公告)号:CN102867006B

    公开(公告)日:2016-04-13

    申请号:CN201110189562.1

    申请日:2011-07-07

    IPC分类号: G06F17/30

    摘要: 本发明实施例提供一种分批聚类方法和系统,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。本实施例的分批聚类方法,通过对要聚类的文档进行分批聚类、批聚类结果的凝聚性处理以及批凝聚性处理结果的合并,提高了聚类性能,实现了增量式的聚类。