-
公开(公告)号:CN112651234B
公开(公告)日:2023-11-28
申请号:CN202011502018.3
申请日:2020-12-18
Applicant: 中国科学院信息工程研究所
IPC: G06F40/253 , G06F40/30 , G06F40/117 , G06F40/169 , G06F40/247
Abstract: 本发明公开一种半开放信息抽取的方法及装置,涉及自然语言处理领域,通过将目标实体和无结构文本前后拼接构成组合文本,处理得到目标实体感知的上下文表示;再将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示,对私有表示进行谓语和宾语的抽取,以及进行边界对齐;最后通过谓语和宾语组合,查找起始和结束位置组合在边界对齐矩阵中是否有相应的标签,如果找到,则保留 元组并作为输出的关系知识。本发明能够克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足。
-
公开(公告)号:CN107798080B
公开(公告)日:2020-05-22
申请号:CN201710952357.3
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
IPC: G06F16/955
Abstract: 本发明提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。
-
公开(公告)号:CN107798080A
公开(公告)日:2018-03-13
申请号:CN201710952357.3
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。
-
公开(公告)号:CN114819067A
公开(公告)日:2022-07-29
申请号:CN202210368335.3
申请日:2022-04-08
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于声谱图分割的拼接音频检测和定位方法和系统。该方法包括:按照音频拼接篡改定位的最小定位区域长度,将待测音频划分成若干个待检测的音频片段Sg;提取Sg的声谱图特征Fg,将t个Sg拼接成一个音频片段S′g,将Fg拼接成一个待输入网络中的声谱图特征F′g;将F′g输入到训练好的拼接音频检测和定位网络中,计算S′g对应的二值预测掩模;计算每个Sg的二值预测掩模中样点为拼接样点的个数占总的样点的个数的比例ρ;比较ρ和预先设置的判定阈值T值的大小,判断该音频片段Sg是否为拼接的片段。本发明能够精确判定特定长度块的音频是否为拼接的音频块,能够有提高拼接音频检测和定位的正确率,并具备可扩展性。
-
公开(公告)号:CN107992469A
公开(公告)日:2018-05-04
申请号:CN201710952360.5
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于词序列的钓鱼URL检测方法及系统,用来检测钓鱼URL。通过对URL字符串进行分词,进而得到词序列的向量表示,然后利用深度学习模型自动学习词序列中的上下文信息和特征,不需要人工提取URL中包含单词相关的文本特征,采用训练好的模型用来检测钓鱼URL。从而,解决前面提到的已有基于词特征的钓鱼URL检测中遇到的问题。
-
公开(公告)号:CN112651234A
公开(公告)日:2021-04-13
申请号:CN202011502018.3
申请日:2020-12-18
Applicant: 中国科学院信息工程研究所
IPC: G06F40/253 , G06F40/30 , G06F40/117 , G06F40/169 , G06F40/247
Abstract: 本发明公开一种半开放信息抽取的方法及装置,涉及自然语言处理领域,通过将目标实体和无结构文本前后拼接构成组合文本,处理得到目标实体感知的上下文表示;再将目标实体感知的上下文表示作为共享特征,为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示,对私有表示进行谓语和宾语的抽取,以及进行边界对齐;最后通过谓语和宾语组合,查找起始和结束位置组合在边界对齐矩阵中是否有相应的标签,如果找到,则保留 元组并作为输出的关系知识。本发明能够克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足。
-
-
-
-
-