-
公开(公告)号:CN110852110B
公开(公告)日:2023-08-04
申请号:CN201810827532.0
申请日:2018-07-25
申请人: 富士通株式会社
摘要: 提供了目标语句提取方法、问题生成方法以及信息处理设备。目标语句提取方法包括:通过将待处理文档中的每个词用词向量表示,构建第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,第二语义序列的每个元素与第一语义序列中的每个词向量对应并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
-
公开(公告)号:CN110728148B
公开(公告)日:2023-07-14
申请号:CN201810701081.6
申请日:2018-06-29
申请人: 富士通株式会社
IPC分类号: G06F40/295 , G06F16/36
摘要: 本发明涉及一种实体关系抽取方法,包括:获取至少一个三元组;对网页集合中的每个网页进行第一处理以获得每个网页的第一处理数据;基于至少一个三元组和每个网页的第一处理数据确定网页集合中与每个三元组所涉及的实体最相关的网页;基于至少一个三元组对最相关的网页的第一处理数据进行第二处理,以得到第二处理数据;基于第二处理数据,在网页集合中选择网页并对选择的网页进行第三处理,以得到第三处理数据,将第三处理数据作为用于实体关系抽取方法的训练集的一部分;利用基于训练集而生成的训练集生成模型进行实体关系抽取。
-
公开(公告)号:CN111339773A
公开(公告)日:2020-06-26
申请号:CN201811550123.7
申请日:2018-12-18
申请人: 富士通株式会社
IPC分类号: G06F40/295
摘要: 提供了信息处理方法、自然语言处理方法以及信息处理设备。信息处理方法包括:根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及根据所述提取的结果,改进命名工具的标注结果。
-
公开(公告)号:CN111339457A
公开(公告)日:2020-06-26
申请号:CN201811549030.2
申请日:2018-12-18
申请人: 富士通株式会社
IPC分类号: G06F16/957 , G06F16/955 , G06F16/954
摘要: 本申请公开了一种用于从网页抽取信息的方法和设备以及存储介质。该方法包括:针对网页及其所有扩展网页中的包含该网页的域名的每个页面生成树;确定树中的导航条节点;确定导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和,抽取与匹配的叶子节点相对应的页面中的信息。
-
公开(公告)号:CN110020302A
公开(公告)日:2019-07-16
申请号:CN201711137446.9
申请日:2017-11-16
申请人: 富士通株式会社
IPC分类号: G06F16/957
摘要: 这里公开的示例性实施例涉及提取网页的内容的方法、提取网页的内容的装置及计算机程序介质。根据提取网页的内容的方法,包括:将输入网页转换为文档对象模型树;确定文档对象模型树中的每个叶节点是否内容叶节点,其中如果叶节点在文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配,则叶节点被确定为内容叶节点;识别文档对象模型树中的至少一个内容非叶节点,其中每个内容非叶节点的所有下属叶节点均为内容叶节点;选择内容非叶节点中所有下属叶节点的文本内容的总长度最长的内容非叶节点;以及提取所选择的内容非叶节点中所有下属叶节点的文本内容。
-
公开(公告)号:CN105718433B
公开(公告)日:2019-01-22
申请号:CN201410737646.8
申请日:2014-12-05
申请人: 富士通株式会社
摘要: 本发明涉及一种表格语义化装置和方法。该装置包括:实体确定单元,被配置为将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;属性确定单元,被配置为对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及表格语义化单元,被配置为基于所确定的实体和每一列对应的属性将所述表格语义化。根据本发明的表格语义化装置和方法,能够将表格信息转换为语义表示,从而将表格中隐式的语义信息显式化,并且还可以对互联网知识库进行补充和完善。
-
公开(公告)号:CN108694197A
公开(公告)日:2018-10-23
申请号:CN201710228779.6
申请日:2017-04-10
申请人: 富士通株式会社
IPC分类号: G06F17/30
摘要: 本申请公开了一种超文本抓取方法和装置。其中,基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面。对于通过第一遍历抓取的每一个当前页面,获得其第一权威度。若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。
-
公开(公告)号:CN107577683A
公开(公告)日:2018-01-12
申请号:CN201610523111.X
申请日:2016-07-05
申请人: 富士通株式会社
IPC分类号: G06F17/30
摘要: 本公开提供了信息处理装置、信息处理方法以及信息处理设备。信息处理装置包括:初始提取单元,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。
-
-
公开(公告)号:CN106802890A
公开(公告)日:2017-06-06
申请号:CN201510830867.4
申请日:2015-11-25
申请人: 富士通株式会社
IPC分类号: G06F17/30
摘要: 本公开提供了信息处理装置和方法以及信息定位装置。信息处理装置包括:搜索单元,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。
-
-
-
-
-
-
-
-
-