-
公开(公告)号:CN107077463A
公开(公告)日:2017-08-18
申请号:CN201580053565.9
申请日:2015-10-01
Applicant: 微软技术许可有限责任公司
Abstract: 提供了一种自动关系提取。使用从大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法与最小人类介入和基于轻模式的方法交互式地被组合,以从非结构化、半结构化和结构化文档提取关系。通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据,并且针对一个或多个关系类型建立对应的模型。对于建模的关系类型而言,在文档中找到感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的概率。组合的机器学习和基于轻模式的方法通过过滤提供经改进的召回率和高精度并且允许所提取的关系的约束和归一化。
-
公开(公告)号:CN106294313A
公开(公告)日:2017-01-04
申请号:CN201510422856.2
申请日:2015-07-17
Applicant: 微软技术许可有限责任公司
CPC classification number: G06F17/278 , G06F17/18 , G06N5/022 , G06N7/005 , G06N99/005
Abstract: 本文中讨论了用于学习用于实体消歧的实体和单词嵌入的技术。示例方法包括:预处理训练数据以生成从该训练数据提取的命名实体、单词和文档锚的一个或多个并发图形,定义这一个或多个并发图形的概率模型;基于该概率模型和该一个或多个并发图形来定义目标函数;以及,基于通过该目标函数的经优化版本生成的特征向量训练至少一个消歧模型。
-