一种CRF识别器的训练及技术及其属性名关系对抽取方法

    公开(公告)号:CN106528863B

    公开(公告)日:2019-07-02

    申请号:CN201611090158.8

    申请日:2016-11-29

    IPC分类号: G06F16/951 G06F17/27

    摘要: 本发明公开了一种CRF识别器的训练方法,所述CRF识别器包括一个属性名CRF识别器和一个关系对CRF识别器,所述属性名CRF识别器和关系对CRF识别器都为CRF模型;所述方法包括:步骤1)建立属性名训练样本,提取属性名训练样本的属性名特征,作为属性名CRF识别器的输入,由此训练出属性名CRF识别器;步骤2)获取属性名CRF识别器输出的属性名,再根据与技术名词形成的所属关系搜集种子对,然后再收集语料,解析得到依存树,由此形成关系对训练样本,提取关系对训练样本的关系对特征,作为关系对CRF识别器的输入,由此训练出关系对CRF识别器;步骤3)将属性名CRF识别器和关系对CRF识别器连接在一起,即所述属性名CRF识别器的输出为关系对CRF识别器的输入,形成CRF识别器。

    一种自适应微博话题摘要的生成方法

    公开(公告)号:CN106503064B

    公开(公告)日:2019-07-02

    申请号:CN201610865867.2

    申请日:2016-09-29

    IPC分类号: G06F16/9535 G06Q50/00

    摘要: 本发明提供了一种自适应微博话题摘要的生成方法,所述方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)对博文子集进行处理,生成最终的摘要。该方法能够提高微博话题摘要的质量,提升用户体验。

    一种微博排序模型的建立及微博多样性检索方法

    公开(公告)号:CN106484829B

    公开(公告)日:2019-05-17

    申请号:CN201610866433.4

    申请日:2016-09-29

    摘要: 本发明公开了一种微博排序模型的建立方法,所述方法包括:步骤S1)构建训练数据集;所述训练数据集包括一系列查询词,每个查询词对应的若干个微博,通过人工标注的方式得到这些微博的排列顺序,作为训练标准答案;步骤S2)提取训练数据集中每个查询词对应的微博的属性;步骤S3)利用每个查询词对应的微博的属性,提取每条博文的相关性特征和相似性特征;步骤S4)构建并训练排序模型。基于上述模型,本发明还提供了一种微博多样性检索方法,该方法使得用户在微博检索相关信息时,返回多样化的检索结果,降低信息冗余,可有效提升检索系统检索结果的准确性和覆盖性,提升用户体验。

    一种微博排序模型的建立及微博多样性检索方法

    公开(公告)号:CN106484829A

    公开(公告)日:2017-03-08

    申请号:CN201610866433.4

    申请日:2016-09-29

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种微博排序模型的建立方法,所述方法包括:步骤S1)构建训练数据集;所述训练数据集包括一系列查询词,每个查询词对应的若干个微博,通过人工标注的方式得到这些微博的排列顺序,作为训练标准答案;步骤S2)提取训练数据集中每个查询词对应的微博的属性;步骤S3)利用每个查询词对应的微博的属性,提取每条博文的相关性特征和相似性特征;步骤S4)构建并训练排序模型。基于上述模型,本发明还提供了一种微博多样性检索方法,该方法使得用户在微博检索相关信息时,返回多样化的检索结果,降低信息冗余,可有效提升检索系统检索结果的准确性和覆盖性,提升用户体验。

    一种命名实体模糊检索方法与系统

    公开(公告)号:CN106294875A

    公开(公告)日:2017-01-04

    申请号:CN201610727015.7

    申请日:2016-08-25

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30734

    摘要: 本发明涉及一种命名实体模糊检索方法,包括:数据索引步骤,该步骤用于将文本切分成索引单元,进而形成索引文件;其中,所述索引单元包括正常索引词与实体类型词,所述实体类型词是用于表征命名实体类型的词;数据检索步骤,该步骤基于数据索引步骤所建立的数据索引,结合用户提供的检索式向用户提供检索服务。本发明还涉及一种命名实体模糊检索系统。本发明的检索方法与系统使得用户在检索信息时,可按实体类型检索信息,或者同时使用普通检索词和实体类型词进行检索,可有效提升信息检索系统的查全率和查准率。

    一种微博中事件持续关注者的识别模型建立及识别方法

    公开(公告)号:CN106446146B

    公开(公告)日:2019-05-17

    申请号:CN201610839220.2

    申请日:2016-09-21

    摘要: 本发明公开了一种微博中事件持续关注者的识别模型的建立方法,所述方法包括:建立训练样本集,包括关注某一事件的用户及与该事件相关的微博;分别提取训练样本集中每个用户的关注度特征和认可度特征,分别训练出关注度用户分类模型和排序模型,所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。基于上述识别模型,本发明还提供了一种微博中事件持续关注者的识别方法,该方法能够识别出事件持续关注者,通过检索事件持续关注者的微博信息流以获取相对密集、完备的事件信息集合,可有效提升特定信息检索的效率。

    一种微博中事件持续关注者的识别模型建立及识别方法

    公开(公告)号:CN106446146A

    公开(公告)日:2017-02-22

    申请号:CN201610839220.2

    申请日:2016-09-21

    IPC分类号: G06F17/30 G06Q50/00 G06K9/62

    摘要: 本发明公开了一种微博中事件持续关注者的识别模型的建立方法,所述方法包括:建立训练样本集,包括关注某一事件的用户及与该事件相关的微博;分别提取训练样本集中每个用户的关注度特征和认可度特征,分别训练出关注度用户分类模型和排序模型,所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。基于上述识别模型,本发明还提供了一种微博中事件持续关注者的识别方法,该方法能够识别出事件持续关注者,通过检索事件持续关注者的微博信息流以获取相对密集、完备的事件信息集合,可有效提升特定信息检索的效率。

    一种命名实体模糊检索方法与系统

    公开(公告)号:CN106294875B

    公开(公告)日:2019-05-17

    申请号:CN201610727015.7

    申请日:2016-08-25

    IPC分类号: G06F16/36

    摘要: 本发明涉及一种命名实体模糊检索方法,包括:数据索引步骤,该步骤用于将文本切分成索引单元,进而形成索引文件;其中,所述索引单元包括正常索引词与实体类型词,所述实体类型词是用于表征命名实体类型的词;数据检索步骤,该步骤基于数据索引步骤所建立的数据索引,结合用户提供的检索式向用户提供检索服务。本发明还涉及一种命名实体模糊检索系统。本发明的检索方法与系统使得用户在检索信息时,可按实体类型检索信息,或者同时使用普通检索词和实体类型词进行检索,可有效提升信息检索系统的查全率和查准率。

    一种CRF识别器的训练及技术及其属性名关系对抽取方法

    公开(公告)号:CN106528863A

    公开(公告)日:2017-03-22

    申请号:CN201611090158.8

    申请日:2016-11-29

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明公开了一种CRF识别器的训练方法,所述CRF识别器包括一个属性名CRF识别器和一个关系对CRF识别器,所述属性名CRF识别器和关系对CRF识别器都为CRF模型;所述方法包括:步骤1)建立属性名训练样本,提取属性名训练样本的属性名特征,作为属性名CRF识别器的输入,由此训练出属性名CRF识别器;步骤2)获取属性名CRF识别器输出的属性名,再根据与技术名词形成的所属关系搜集种子对,然后再收集语料,解析得到依存树,由此形成关系对训练样本,提取关系对训练样本的关系对特征,作为关系对CRF识别器的输入,由此训练出关系对CRF识别器;步骤3)将属性名CRF识别器和关系对CRF识别器连接在一起,即所述属性名CRF识别器的输出为关系对CRF识别器的输入,形成CRF识别器。

    一种自适应微博话题摘要的生成方法

    公开(公告)号:CN106503064A

    公开(公告)日:2017-03-15

    申请号:CN201610865867.2

    申请日:2016-09-29

    IPC分类号: G06F17/30 G06Q50/00

    CPC分类号: G06F16/9535 G06Q50/01

    摘要: 本发明提供了一种自适应微博话题摘要的生成方法,所述方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)对博文子集进行处理,生成最终的摘要。该方法能够提高微博话题摘要的质量,提升用户体验。