-
公开(公告)号:CN101408886A
公开(公告)日:2009-04-15
申请号:CN200810166181.X
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒 , 约翰·J·西多罗维奇 , 雅尼斯·拉布罗
IPC分类号: G06F17/30
CPC分类号: G06F17/30616 , G06F17/218 , G06F17/2735 , G06F17/277
摘要: 通过分析文档的段落来选择该文档的标签。在一个实施方式中,为文档指配标签包括访问该文档,其中该文档包括含有词语的文本单元。针对各文本单元执行以下步骤:文本单元的词语子集被选作候选标签、在所述候选标签之间建立关联性,以及根据所建立的关联性来选择特定候选标签以产生用于该文本单元的候选标签集。确定各候选标签集的候选标签和其他候选标签集的候选标签之间的关联性。根据所确定的关联性,为该文档指配至少一个候选标签。
-
公开(公告)号:CN101493823B
公开(公告)日:2012-06-13
申请号:CN200810166171.6
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒 , 约翰·J·西多罗维奇
IPC分类号: G06F17/30
摘要: 本发明涉及根据单词相关度识别单词聚类。在一种实施方式中,识别单词聚类包括访问记录了相关度的记录。第一单词和第二单词之间的相关度描述了第一单词和第二单词之间的定量关系。根据相关度识别单词聚类。聚类包括彼此具有足够相关的单词。如果第一单词和第二单词之间的相关度满足一种或多种相关度判据则第一单词与第二单词足够相关。利用聚类进行聚类分析。
-
公开(公告)号:CN101408886B
公开(公告)日:2012-12-19
申请号:CN200810166181.X
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒 , 约翰·J·西多罗维奇 , 雅尼斯·拉布罗
IPC分类号: G06F17/30
CPC分类号: G06F17/30616 , G06F17/218 , G06F17/2735 , G06F17/277
摘要: 通过分析文档的段落来选择该文档的标签。在一个实施方式中,为文档指配标签包括访问该文档,其中该文档包括含有词语的文本单元。针对各文本单元执行以下步骤:文本单元的词语子集被选作候选标签、在所述候选标签之间建立关联性,以及根据所建立的关联性来选择特定候选标签以产生用于该文本单元的候选标签集。确定各候选标签集的候选标签和其他候选标签集的候选标签之间的关联性。根据所确定的关联性,为该文档指配至少一个候选标签。
-
公开(公告)号:CN101404015B
公开(公告)日:2012-03-21
申请号:CN200810166177.3
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒
IPC分类号: G06F17/30
CPC分类号: G06F17/30616 , G06F17/30675 , G06F17/3071
摘要: 本发明涉及自动生成词条层次。在某些实施方式中,生成词条的层次包括访问包括多个词条的语料库。对一个或多个词条执行以下步骤以产生父子关系:根据有向相关度来标识词条的一个或多个父词条;以及根据该父词条和每个词条来建立一个或多个父子关系。根据这些父子关系而自动生成层次图。
-
公开(公告)号:CN101408887A
公开(公告)日:2009-04-15
申请号:CN200810166182.4
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒 , 约翰·J·西多罗维奇 , 雅尼斯·拉布罗 , 艾伯特·莱因哈德
IPC分类号: G06F17/30
CPC分类号: G06F17/30672 , G06F17/30616 , G06F17/30646 , G06F17/30864
摘要: 推荐词条以指定本体空间。在一个实施方式中,接收用于搜索的目标搜索词条集。选择候选词条,其中候选词条被选择用于减少该搜索的本体空间。向计算机发送候选词条以推荐候选词条作为搜索词条。在另一个实施方式中,访问存储在一个或更多个有形介质中的文档。接收文档的目标标签集。选择多个词条,其中词条被选择用于减少文档的本体空间。向计算机发送词条以推荐该词条作为标签。
-
公开(公告)号:CN101408885B
公开(公告)日:2012-12-19
申请号:CN200810166172.0
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒 , 约翰·J·西多罗维奇 , 雅尼斯·拉布罗
CPC分类号: G06F17/3071 , G06F17/30616
摘要: 利用统计分布对主题进行建模。在一个实施方式中,对主题进行建模的方法包括访问由包括词的文档组成的语料库。选择文档中的词作为该文档的关键词。根据关键词对文档进行聚类,以得到各个群集,其中每一群集对应于一个主题。针对一个群集,根据该群集的文档中的词生成统计分布。利用针对与一个主题相对应的群集生成的统计分布对该主题进行建模。
-
公开(公告)号:CN101408885A
公开(公告)日:2009-04-15
申请号:CN200810166172.0
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒 , 约翰·J·西多罗维奇 , 雅尼斯·拉布罗
CPC分类号: G06F17/3071 , G06F17/30616
摘要: 利用统计分布对主题进行建模。在一个实施方式中,对主题进行建模的方法包括访问由包括词的文档组成的语料库。选择文档中的词作为该文档的关键词。根据关键词对文档进行聚类,以得到各个群集,其中每一群集对应于一个主题。针对一个群集,根据该群集的文档中的词生成统计分布。利用针对与一个主题相对应的群集生成的统计分布对该主题进行建模。
-
公开(公告)号:CN101408887B
公开(公告)日:2015-06-17
申请号:CN200810166182.4
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒 , 约翰·J·西多罗维奇 , 雅尼斯·拉布罗 , 艾伯特·莱因哈德
IPC分类号: G06F17/30
CPC分类号: G06F17/30672 , G06F17/30616 , G06F17/30646 , G06F17/30864
摘要: 推荐词条以指定本体空间。在一个实施方式中,接收用于搜索的目标搜索词条集。选择候选词条,其中候选词条被选择用于减少该搜索的本体空间。向计算机发送候选词条以推荐候选词条作为搜索词条。在另一个实施方式中,访问存储在一个或更多个有形介质中的文档。接收文档的目标标签集。选择多个词条,其中词条被选择用于减少文档的本体空间。向计算机发送词条以推荐该词条作为标签。
-
公开(公告)号:CN101493823A
公开(公告)日:2009-07-29
申请号:CN200810166171.6
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒
IPC分类号: G06F17/30
摘要: 本发明涉及根据单词相关度识别单词聚类。在一种实施方式中,识别单词聚类包括访问记录了相关度的记录。第一单词和第二单词之间的相关度描述了第一单词和第二单词之间的定量关系。根据相关度识别单词聚类。聚类包括彼此具有足够相关的单词。如果第一单词和第二单词之间的相关度满足一种或多种相关度判据则第一单词与第二单词足够相关。利用聚类进行聚类分析。
-
公开(公告)号:CN101404015A
公开(公告)日:2009-04-08
申请号:CN200810166177.3
申请日:2008-10-06
申请人: 富士通株式会社
发明人: 大卫·马尔维特 , 贾瓦哈拉·贾殷 , 斯特吉奥斯·斯特吉奥 , 亚历克斯·吉尔曼 , B·托马斯·阿德勒
IPC分类号: G06F17/30
CPC分类号: G06F17/30616 , G06F17/30675 , G06F17/3071
摘要: 本发明涉及自动生成词条层次。在某些实施方式中,生成词条的层次包括访问包括多个词条的语料库。对一个或多个词条执行以下步骤以产生父子关系:根据有向相关度来标识词条的一个或多个父词条;以及根据该父词条和每个词条来建立一个或多个父子关系。根据这些父子关系而自动生成层次图。
-
-
-
-
-
-
-
-
-