-
公开(公告)号:CN107544958A
公开(公告)日:2018-01-05
申请号:CN201710566573.4
申请日:2017-07-12
Applicant: 清华大学
IPC: G06F17/27
Abstract: 本发明提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明极大地提高了术语抽取的性能。
-
公开(公告)号:CN107274077B
公开(公告)日:2020-07-31
申请号:CN201710398841.6
申请日:2017-05-31
Applicant: 清华大学
Abstract: 本发明提供一种课程先后序计算方法和设备,用于解决确定大型网络课程中安排课程的学习顺序问题。其中方法包括:S101、根据辅助语料,获得第一语料中的概念实体的向量表示;S102、计算概念实体对之间的复杂程度距离特征;以及计算以下6种特征中的至少5种:语义关系特征、视频引用距离特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征;S103、根据获得的概念实体对之间的复杂程度距离特征,以及根据在步骤S102中获得5种特征,采用随机森林方法训练获得概念的先后序关系;S104、通过概念实体的先后顺序,获得课程的先后顺序。本发明对网络上大型开放网络课程提供了一个有效的先后序确认方法。
-
公开(公告)号:CN107544958B
公开(公告)日:2020-02-18
申请号:CN201710566573.4
申请日:2017-07-12
Applicant: 清华大学
IPC: G06F40/30 , G06F40/284
Abstract: 本发明提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明极大地提高了术语抽取的性能。
-
公开(公告)号:CN107274077A
公开(公告)日:2017-10-20
申请号:CN201710398841.6
申请日:2017-05-31
Applicant: 清华大学
Abstract: 本发明提供一种课程先后序计算方法和设备,用于解决确定大型网络课程中安排课程的学习顺序问题。其中方法包括:S101、根据辅助语料,获得第一语料中的概念实体的向量表示;S102、计算概念实体对之间的复杂程度距离特征;以及计算以下6种特征中的至少5种:语义关系特征、视频引用距离特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征;S103、根据获得的概念实体对之间的复杂程度距离特征,以及根据在步骤S102中获得5种特征,采用随机森林方法训练获得概念的先后序关系;S104、通过概念实体的先后顺序,获得课程的先后顺序。本发明对网络上大型开放网络课程提供了一个有效的先后序确认方法。
-
-
-