一种获取领域重要知识点的方法和系统

    公开(公告)号:CN105468657B

    公开(公告)日:2019-06-04

    申请号:CN201410497611.1

    申请日:2014-09-26

    IPC分类号: G06F17/27 G06F16/332

    摘要: 本发明提供一种获取领域重要知识点的方法,首先确定领域内的候选知识点,然后计算这些候选知识点的语义向量,根据每个知识点的语义向量计算得到语义相似度矩阵,根据该语义相似度矩阵来计算候选知识点中的重要知识点,这些知识点便是该领域内的重要知识点。当建设或检查领域百科全书时,可以根据这些重要知识点来建立词条,或者检查词条是否完善,将还没有收录的重要知识点增加在需要建设的词条中,通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。

    一种数字资源热点生成方法及装置

    公开(公告)号:CN105528432B

    公开(公告)日:2019-04-26

    申请号:CN201510933594.6

    申请日:2015-12-15

    IPC分类号: G06F16/35 G06F17/27

    摘要: 本发明提供一种数字资源热点生成方法,首先,从数字资源中提取标题和正文;然后分别获取标题相似度矩阵和正文相似度矩阵;通过分别聚类获得标题候选热点集和正文候选热点集;最后,根据所述标题候选热点集和所述正文候选热点集获取候选热点集。该方案中,使用正文信息和标题信息来进行热点推荐,正文信息和标题信息采用不同的方式处理,相互作为补充和依据,使得获得的热点更加准确,避免了现有技术中对主题词表和新词发现的需求,减弱热点发现对热点个数和经验参数的依赖,实现了面向数字报刊的热点新闻自动发现。

    一种获取领域重要知识点的方法和系统

    公开(公告)号:CN105468657A

    公开(公告)日:2016-04-06

    申请号:CN201410497611.1

    申请日:2014-09-26

    IPC分类号: G06F17/30

    摘要: 本发明提供一种获取领域重要知识点的方法,首先确定领域内的候选知识点,然后计算这些候选知识点的语义向量,根据每个知识点的语义向量计算得到语义相似度矩阵,根据该语义相似度矩阵来计算候选知识点中的重要知识点,这些知识点便是该领域内的重要知识点。当建设或检查领域百科全书时,可以根据这些重要知识点来建立词条,或者检查词条是否完善,将还没有收录的重要知识点增加在需要建设的词条中,通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。

    计算领域知识点的相关知识点的方法及系统

    公开(公告)号:CN105447053A

    公开(公告)日:2016-03-30

    申请号:CN201410497612.6

    申请日:2014-09-26

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明提供一种计算领域知识点的相关知识点的方法,首先获取领域知识点,再从参考文本中分词得到所有知识点,这些知识点中包含了领域知识点和其他知识点,然后依次为分词结果中的每个知识点建立索引,再根据所述每个知识点的索引和顺序,通过神经网络模型训练的方式,得到领域知识点的语义向量,从而将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便。然后,根据各个领域知识点的语义向量,确定领域知识点之间的相似度,然后根据该相似度的大小便能轻易的区分哪些是相关的知识点,根据需要选择相关知识点的个数。该方式计算简单方便,准确性高,适用于推荐、检索等方面。

    一种识别命名实体的方法及装置

    公开(公告)号:CN105426464A

    公开(公告)日:2016-03-23

    申请号:CN201510778326.1

    申请日:2015-11-13

    IPC分类号: G06F17/30 G06F17/27

    CPC分类号: G06F17/30705 G06F17/2785

    摘要: 本发明提供的识别命名实体的方法,首先,获取各个类别的训练样本以及目标字符串,然后将目标字符串拆分成单个目标字;之后,针对每个类别,计算每个目标字与该类别的训练样本中的其他字的接近度;根据所述接近度计算该目标字符串属于该类别的似然函数;计算出该目标字符串对应每个类别的似然函数,将似然函数最大的类别作为目标字符串所属的命名实体的类别。该方案中,通过计算目标字符串属于每个类别的似然函数,将目标字符串与属于各个类别的程度进行了量化,从而客观表现出其所属程度,从而对命名实体进行分类,提高了分类效果和分类精度。

    一种云阅读服务系统、云阅读服务方法和装置

    公开(公告)号:CN102819531B

    公开(公告)日:2016-03-09

    申请号:CN201110156497.2

    申请日:2011-06-10

    发明人: 高飞 刘丽 汤帜

    IPC分类号: G06F17/30

    摘要: 本发明涉及计算机领域,提供一种云阅读服务系统、云阅读服务方法和装置,用以实现电子文档批注的共享。在本发明实施例中,云阅读文档库负责保存文档,为每一个文档生成一个电子文档标识信息,以及将标识信息更新给云阅读批注库,同时云阅读文档库还负责收集每一个在线阅读电子文档的用户的信息,并及时更新给云阅读批注库,使云阅读批注库随时可以获知各个在线阅读用户的信息。而云阅读批注库负责收集并保存各个在线阅读用户为电子文档更新的新批注,并对应电子文档标识信息保存,从而实现批注共享。

    主题词提取方法及使用其获取相关数字资源的方法及装置

    公开(公告)号:CN105224521A

    公开(公告)日:2016-01-06

    申请号:CN201510627961.X

    申请日:2015-09-28

    IPC分类号: G06F17/27 G06F17/30

    摘要: 本发明提供一种主题词提取方法及使用其获取相关数字资源的方法及装置,其中主题词提取方法包括:首先,对数字资源的文本进行分词,然后根据分词结果得到意义词;针对每个主题,获取所述意义词的概率分布,所述概率分布包括意义词及其对应的权重;获取所述意义词的每个词义,合并具有相同词义的意义词及其对应的权重;根据合并后的意义词及其权重确定主题词。该方案中从词义的角度出发,将具有相同词义的词语进行了合并,避免了现有技术中多义词、同义词对主题词提取的干扰,提高了主题词提取的准确性,消除了现有技术中对特征词的选择及命名实体识别的依赖,减弱多义词和同义词给主题词向量带来的干扰,同时实现面向用户的个性化专题组织与生成。

    一种类别从属度计算方法及系统

    公开(公告)号:CN104951638A

    公开(公告)日:2015-09-30

    申请号:CN201410114574.1

    申请日:2014-03-25

    IPC分类号: G06F19/00

    摘要: 本发明提供一种类别从属度的计算方法及系统,首先确定所有分类以及参考分类,然后确定待分析数据对应所述参考分类中每个分类的参考值,再根据待分析数据在该分类的参考值和待分析数据对应该参考分类中每个分类的参考值确定待分析数据对于该分类的类别从属度。通过这种方法来计算类别从属度,可以很好的表示出待分析数据与其关注的那些分类之间的从属关系的大小,从而通过类别从属度表示出待分析数据与参考分类中每个分类的从属度数值,使用户一目了然的知道了待分析数据与其关注的分类的关系,为用户提供更多的分类参考信息,不仅计算简单,而且非常直观。