-
公开(公告)号:CN110909175A
公开(公告)日:2020-03-24
申请号:CN201911140653.9
申请日:2019-11-20
申请人: 清华大学
IPC分类号: G06F16/36 , G06F16/35 , G06F40/284 , G06F40/289 , G06Q50/20
摘要: 本发明提出一种基于搜索引擎的在线课程概念知识图谱构建方法,属于信息技术领域。该方法使用外部数据库和自然语言处理的方法,获取了课程文本中的概念,由此得到课程领域分类的结果,同时利用搜索引擎获取概念的搜索结果,提取其中的课程扩展概念,完成概念知识图谱的构建。本发明无需训练数据,可在课程文本这一特殊场景中获取准确且全面的概念,有效构建在线课程概念知识图谱。
-
公开(公告)号:CN110851669A
公开(公告)日:2020-02-28
申请号:CN201910987453.0
申请日:2019-10-17
申请人: 清华大学
IPC分类号: G06F16/903 , G06F16/29
摘要: 本发明公开了一种基于地理位置信息的机构命名排歧方法及装置,其中,该方法包括:对输入文本信息抽取生成机构信息集合,对输入文本信息挖掘生成具有地理位置指向性的信息,并结构化为地理位置指向性信息集合;根据机构信息集合、地理位置指向性信息集合和多地图API,将机构信息集合中的每个机构映射为不同的地理位置,将映射结果进行结构化生成结构化机构信息集合;根据相似度算法对结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵;根据机构相似度矩阵判断机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,输出排歧结果。该方法能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
-
公开(公告)号:CN110851659A
公开(公告)日:2020-02-28
申请号:CN201911009191.7
申请日:2019-10-23
申请人: 清华大学
IPC分类号: G06F16/901 , G06F16/95
摘要: 本发明提出一种基于学者论文关系网络的学者学术影响力计算方法及系统,属于信息技术领域。该系统包括:论文抓取模块、学者论文关系网络构建模块、网络节点权重计算模块和学者学术影响力计算模块。该方法首先确定待评价学者,构造包含学者节点、论文节点以及对应边的学者论文关系网络;计算学者论文关系网络每个节点的权重;根据学者节点的权重以及学者节点之间的引用关系,计算待评价学者的学术影响力分值。本发明同时考虑学者发表的论文数量和质量,以及论文引用者对学者学术影响力的贡献,从而更公平全面地度量学者学术影响力。
-
公开(公告)号:CN110825942A
公开(公告)日:2020-02-21
申请号:CN201911003528.3
申请日:2019-10-22
申请人: 清华大学
IPC分类号: G06F16/951 , G06F17/18
摘要: 本发明提出一种论文质量的计算方法及系统,属于信息技术领域。该系统包括:论文抓取模块、预处理模块和论文质量计算模块。该方法首先建立论文历年被引频次和被引年份的集合;计算论文总被引频次,及论文历年被引频次的增长速率及均值;计算论文历年被引频次的高低变化波动值;分别对论文历年被引频次的增长速率均值和高低变化波动值进行归一化;最后得到论文质量分值。本发明可以客观准确地计算论文的质量分值,消除了人们主观感受、技术研究热度、引用动机复杂等因素对论文质量的影响,保证了结果的准确性和客观性,易于实现。
-
公开(公告)号:CN109359249A
公开(公告)日:2019-02-19
申请号:CN201811149733.6
申请日:2018-09-29
申请人: 清华大学
IPC分类号: G06F16/9537
摘要: 本发明公开了一种基于学者科研成果挖掘的学者精准定位方法及装置,其中,该方法包括:对学者科研成果p中文本信息进行抽取以获取关键信息,并构建结构化信息;根据关键信息和结构化信息对学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造学者科研成果p相关结构化的隐含信息O;对结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据隐含信息O和不同类型地图API特点,获取最终结果R;根据最终结果R和矩阵U获取A→R映射,并获取学者科研成果中集合A的每个学者的地理位置信息,输出学者科研成果p中所有作者的定位信息。该方法可以通过深度挖掘学者科研成果的文本信息,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
-
公开(公告)号:CN108596444A
公开(公告)日:2018-09-28
申请号:CN201810284916.2
申请日:2018-04-02
申请人: 清华大学
摘要: 本发明公开了一种基于多元化策略的大规模社会网络用户抽样的方法及装置,其中,方法包括以下步骤:通过效用函数抽取多名用户代表;根据多名用户代表的每个用户代表的属性将多名用户代表分为多个属性组,以得到属性组代表程度的模型;获取效用函数的最大值,以从多个属性组中选出代表用户;根据代表用户利用多元化策略抽样选出代表度最差组。该方法可以有效的减小网络的数据规模,使数据处理规模变的容易处理,同时也有助于去除没有代表性的用户,集中研究网络中更具有价值的用户群体,进而有效提高抽样的准确率,同时在时间复杂度上也表现的非常高效。
-
公开(公告)号:CN106126618A
公开(公告)日:2016-11-16
申请号:CN201610458192.X
申请日:2016-06-22
申请人: 清华大学
IPC分类号: G06F17/30
CPC分类号: G06F16/9535
摘要: 本发明提出一种基于人名的邮箱地址推荐方法及系统,该方法包括:以待搜索人的信息和邮箱作为关键词,通过搜索引擎进行搜索,得到对应于待搜索人的搜索结果页面;对搜索结果页面中的条目结构进行分析,并将符合邮箱地址格式的地址作为待搜索人的候选邮箱地址;对待搜索人的候选邮箱地址进行格式规范,并去除其中的无效地址;以及对待搜索人的候选邮箱地址中剩余的邮箱地址进行特征抽取以得到特征向量,并将特征向量输入预先构造的SVM分类模型中进行分类鉴别,并将被判定为正例的邮箱地址作为待搜索人的邮箱地址推荐给用户。本发明能够根据待搜索人的信息向用户推荐待搜索人的邮箱,具有效率高、准确度高的优点。
-
公开(公告)号:CN105095400A
公开(公告)日:2015-11-25
申请号:CN201510394587.3
申请日:2015-07-07
申请人: 清华大学
IPC分类号: G06F17/30
CPC分类号: G06F17/30663 , G06F17/3069
摘要: 本发明公开了一种个人主页的查找方法,包括以下步骤:在搜索引擎中输入关键信息获得搜索结果,采用最接近关键信息的搜索结果作为数据集;从数据集中抽取部分数据文本进行标注;对已经标注过的数据文本分为训练集和测试集;对训练集抽取训练集特征信息;对训练集特征信息进行建模,得到第一模型;对测试集抽取测试集特征信息;利用第一模型对测试集特征信息进行分析,得到预测结果;对预测结果进行判断;通过十折交叉验证进行迭代,选取最优模型;采用最优模型判断搜索结果是否为目标人物的个人主页。本发明具有如下优点:适应性较强,可通过在实际应用过程中收集整理训练样本,更新及扩充训练集,进而提高本方法的适用性及查找准确率。
-
公开(公告)号:CN102135905B
公开(公告)日:2014-04-02
申请号:CN201110064824.1
申请日:2011-03-17
申请人: 清华大学
IPC分类号: G06F9/46
摘要: 本发明公开了一种基于用户定制的本体匹配系统,涉及语义万维网技术领域,包括:本体模块,包括原子组件本体操作接口子模块和本体API子模块;原子组件模块,用于通过原子组件本体操作接口子模块调用本体API子模块的本体API实现原子组件;用户接口模块,用于接收用户上传的待匹配本体和自行实现的原子组件;匹配执行模块,用于根据待匹配本体生成匹配任务描述文件,并根据匹配任务描述文件选择原子组件或自行实现的原子组件来执行匹配任务,生成匹配结果。本发明使用户能够根据匹配本体的特征,对这些原子组件进行定制和组装来设计自己需要的本体匹配流程,生成合适的匹配任务并得到精确地匹配结果。
-
公开(公告)号:CN101321190B
公开(公告)日:2013-01-30
申请号:CN200810116171.5
申请日:2008-07-04
申请人: 清华大学
摘要: 本发明涉及一种异构网络中的推荐方法以及基于该方法的推荐系统。异构网络中的推荐方法使用一种统一的模型来模拟多种不同类型的对象以及他们之间可能存在的复杂关系,并借助该模型更好地完成推荐。首先建立社会网络库(其中的对象及其关系均为异构);然后利用重要程度计算装置,对社会网络对象进行全局重要度评估;接着利用相关程度计算装置,对社会网络对象进行相关度评估;也可以再利用浏览历史信息计算装置,得到当前用户的浏览信息;最后利用上述三个基本装置,在社会关系网中,进行给定子图、推荐子图的操作。该推荐方法切实有效,克服了现有技术中只能推荐某一种类型对象的缺陷。
-
-
-
-
-
-
-
-
-