一种文本关键词确定方法及装置

    公开(公告)号:CN111914564A

    公开(公告)日:2020-11-10

    申请号:CN202010667115.1

    申请日:2020-07-13

    摘要: 本发明实施例提供了一种文本关键词确定方法及装置,上述方法包括:提取各个候选关键词在文本中所表达语义的语义特征;并确定每一候选关键词的语义重要度、频率重要度与位置重要度;针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为所述文本的关键词。应用本发明实施例提供的方案确定文本中的关键词时,能够提高文本关键词确定的准确度。

    一种关键词提取方法及装置

    公开(公告)号:CN110489757A

    公开(公告)日:2019-11-22

    申请号:CN201910789844.1

    申请日:2019-08-26

    摘要: 本发明实施例提供了一种关键词提取方法及装置,可以获取待处理文本的文本类型对应的目标文本库,基于目标文本库,计算待处理文本的各候选词各自的第一权重,基于候选词图中每两个节点对应的候选词的共现次数,计算各候选词各自的第二权重,基于第一权重和第二权重,从各候选词中确定待处理文本的关键词。基于上述处理,由于目标文本库中包含的文本与待处理文本的文本类型相同,因此,根据目标文本库确定出的第一权重能够有效地体现各候选词是否能够有效地表达待处理文本的主题,另外,基于候选词的共现次数确定出的第二权重,能够体现候选词之间的关联程度,进而,基于结合第一权重和第二权重,确定出的待处理文本的关键词的准确度较高。

    一种基于图和词句协同的关键词提取方法及装置

    公开(公告)号:CN110083835A

    公开(公告)日:2019-08-02

    申请号:CN201910334804.8

    申请日:2019-04-24

    IPC分类号: G06F17/27

    摘要: 本发明实施例提供了一种基于图和词句协同的关键词提取方法及装置,其中方法包括:基于从待提取关键词的文本中得到的候选词和句子,计算每两个候选词对应的扩散度,基于扩散度计算无向有权图中每两个候选词之间边的第一权重,再基于第一权重计算各候选词的第一指标,计算有向有权图中每两个句子之间边的第二权重,基于第二权重计算各句子的第二指标,基于句子的第二指标得到句子的第一指标向量,进而基于各候选词的第一指标和所得到的第一指标向量构建各候选词的包含该候选词第五指标的第二指标向量,再基于第二指标向量中各第五指标的大小顺序,提取文本中的关键词。本发明实施例,能够提高提取文本中关键词的准确程度。

    一种基于TextRank的关键词提取方法和装置

    公开(公告)号:CN109918660A

    公开(公告)日:2019-06-21

    申请号:CN201910160266.5

    申请日:2019-03-04

    IPC分类号: G06F17/27

    摘要: 本申请实施例提供了一种基于文本排列TextRank的关键词提取方法和装置,方法包括:对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词的扩散度确定节点之间的边的权重,进而能够提高提取到的关键词的准确度。

    一种文本关键词确定方法及装置

    公开(公告)号:CN111914564B

    公开(公告)日:2023-03-14

    申请号:CN202010667115.1

    申请日:2020-07-13

    摘要: 本发明实施例提供了一种文本关键词确定方法及装置,上述方法包括:提取各个候选关键词在文本中所表达语义的语义特征;并确定每一候选关键词的语义重要度、频率重要度与位置重要度;针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为所述文本的关键词。应用本发明实施例提供的方案确定文本中的关键词时,能够提高文本关键词确定的准确度。

    一种基于TextRank的关键词提取方法和装置

    公开(公告)号:CN109918660B

    公开(公告)日:2021-03-02

    申请号:CN201910160266.5

    申请日:2019-03-04

    IPC分类号: G06F40/289 G06F40/216

    摘要: 本申请实施例提供了一种基于文本排列TextRank的关键词提取方法和装置,方法包括:对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词的扩散度确定节点之间的边的权重,进而能够提高提取到的关键词的准确度。