一种基于指纹融合的跨语言剽窃检测方法

    公开(公告)号:CN107871002B

    公开(公告)日:2021-03-30

    申请号:CN201711101596.4

    申请日:2017-11-10

    Abstract: 本发明提供的是一种基于指纹融合的跨语言剽窃检测方法。将需要进行剽窃检测的中英文文本集,通过自然语言处理提取其名词序列,利用WordNet的名词树形结构,通过中间指纹编码算法将名词序列编码成中间指纹;然后基于中间指纹,利用语义密度对指纹编码进行语义消歧;通过指纹选取策略提取出能够代表当前片段语义的中英文指纹,运用Dice系数对指纹进行相似度计算,利用计算结果根据阈值选取出潜在剽窃片段;然后按照SinWin算法计算句子之间的相似度,通过阈值选取出剽窃句子,最后通过剽窃片段合并形成最后的剽窃检测结果。本发明在跨语言相似检索阶段跨越了语言的障碍,对于较长的段落来说是合适和高效的。

    一种基于双语词嵌入的跨语言文本相似度评估技术

    公开(公告)号:CN109213995A

    公开(公告)日:2019-01-15

    申请号:CN201810869704.0

    申请日:2018-08-02

    Inventor: 刘刚 张翰墨 左权

    Abstract: 本发明属于语言处理领域,具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段:双语词嵌入模型的构建、多神经网络结合的文本相似度计算框架构建、跨语言相似度计算。通过该模型可以生成双语共享的词嵌入表示,基于词向量相关理论和Skip-Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。

    一种基于指纹融合的跨语言剽窃检测方法

    公开(公告)号:CN107871002A

    公开(公告)日:2018-04-03

    申请号:CN201711101596.4

    申请日:2017-11-10

    Abstract: 本发明提供的是一种基于指纹融合的跨语言剽窃检测方法。将需要进行剽窃检测的中英文文本集,通过自然语言处理提取其名词序列,利用WordNet的名词树形结构,通过中间指纹编码算法将名词序列编码成中间指纹;然后基于中间指纹,利用语义密度对指纹编码进行语义消歧;通过指纹选取策略提取出能够代表当前片段语义的中英文指纹,运用Dice系数对指纹进行相似度计算,利用计算结果根据阈值选取出潜在剽窃片段;然后按照SinWin算法计算句子之间的相似度,通过阈值选取出剽窃句子,最后通过剽窃片段合并形成最后的剽窃检测结果。本发明在跨语言相似检索阶段跨越了语言的障碍,对于较长的段落来说是合适和高效的。

    一种基于双语词嵌入的跨语言文本相似度评估技术

    公开(公告)号:CN109213995B

    公开(公告)日:2022-11-18

    申请号:CN201810869704.0

    申请日:2018-08-02

    Inventor: 刘刚 张翰墨 左权

    Abstract: 本发明属于语言处理领域,具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段:双语词嵌入模型的构建、多神经网络结合的文本相似度计算框架构建、跨语言相似度计算。通过该模型可以生成双语共享的词嵌入表示,基于词向量相关理论和Skip‑Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。

Patent Agency Ranking