-
公开(公告)号:CN108228710B
公开(公告)日:2021-09-28
申请号:CN201711237280.8
申请日:2017-11-30
Applicant: 中国科学院信息工程研究所
IPC: G06F16/955 , G06F40/284 , G06F40/289
Abstract: 本发明涉及一种针对URL的分词方法及装置。该方法包括:1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;2)对所述若干层次部分依次进行符号分割与正则表达式过滤;3)对步骤2)处理后得到字符串进行分割,得到URL分词序列。其中步骤1)将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径;步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。本发明充分利用了URL本身的层次结构,能够高效地对URL进行分割,并最大化地保留了URL地址中的有用信息,得到的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析,能够有效提高任务准确率。
-
公开(公告)号:CN108959242B
公开(公告)日:2021-07-27
申请号:CN201810431801.1
申请日:2018-05-08
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06K9/62
Abstract: 本发明涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括:1)在训练文本中标记目标实体并进行分词及词性标注;2)将训练文本拆分为字符,得到字符序列,每个字符保留拆分之前的词性;3)将字符的词性与字符在分词中的位置进行拼接作为字符词性,得到字符词性序列;4)将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到目标实体识别结果。本发明能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。
-
公开(公告)号:CN112651243A
公开(公告)日:2021-04-13
申请号:CN202011481330.9
申请日:2020-12-15
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/216 , G06F40/242 , G06F16/35
Abstract: 本发明公开了一种基于融入结构化实体信息的缩写项目名称识别方法及电子装置,包括:获取知识库锚文本、常用项目名词典及缩写项目名称,结合实体边界识别模块、命名实体抽取模块及缩写项目名称识别模块,对一预训练编码器进行训练,得到缩写项目名称识别模型;将测试文本输入所述缩写项目名称识别模型,识别所述测试文本中的缩写项目名称。本发明提高了文本中缩写项目名称的识别率与召回率。
-
公开(公告)号:CN107451433B
公开(公告)日:2020-05-22
申请号:CN201710499053.6
申请日:2017-06-27
Applicant: 中国科学院信息工程研究所
IPC: G06F21/16 , G06F40/211 , G06F40/284 , G06N3/04
Abstract: 本发明提供一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:将输入的文本按句子切分并分词;识别出各句子中包含的类型为信息源的实体;如所述实体为其所在句子的信息源,则将其作为一信息源实体;整合各句子得到的信息源实体,作为文本信息识别结果。可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。同时提供对应实现上述方法的装置。
-
公开(公告)号:CN109086327A
公开(公告)日:2018-12-25
申请号:CN201810716386.4
申请日:2018-07-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种快速生成网页视觉结构图形的方法及装置。该方法包括:提取网页中的文本域的视觉结构图形;提取网页中的图像域的视觉结构图形;将文本域的视觉结构图形与图像域的视觉结构图形去重与合并,得到网页的视觉结构图形。该装置包括文本域视觉结构图形提取模块、图像域视觉结构图形提取模块、去重与合并模块。本发明抛弃了传统分析方法中网页DOM结构的累赘,仅由网页截图应用图形学方法处理图片,大大降低了算法耗时;本发明采用数学形态学变换,能够快速、准确地分别提取网页中文本域与图像域的视觉结构图形。
-
公开(公告)号:CN107451433A
公开(公告)日:2017-12-08
申请号:CN201710499053.6
申请日:2017-06-27
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:将输入的文本按句子切分并分词;识别出各句子中包含的类型为信息源的实体;如所述实体为其所在句子的信息源,则将其作为一信息源实体;整合各句子得到的信息源实体,作为文本信息识别结果。可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。同时提供对应实现上述方法的装置。
-
公开(公告)号:CN106127222A
公开(公告)日:2016-11-16
申请号:CN201610420846.X
申请日:2016-06-13
Applicant: 中国科学院信息工程研究所
CPC classification number: G06K9/6215 , G06K9/2054
Abstract: 本发明公开了一种基于视觉的字符串相似度计算方法及相似性判断方法。本发明的字符串相似度计算方法为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受。
-
公开(公告)号:CN105608070A
公开(公告)日:2016-05-25
申请号:CN201510965136.0
申请日:2015-12-21
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/2745 , G06F17/2775
Abstract: 本发明涉及一种面向新闻标题的人物关系抽取方法,其步骤包括:1)寻找出新闻标题中的关系指示词,用以区分不同类别的人物关系;2)根据人物与关系指示词在新闻标题中的位置特征,建立描述句子的句式模板;利用训练数据统计每个模板的正/负例个数,根据正负模板的比例判定新闻标题中人物间关系的正确性;3)从新闻标题与人物属性知识库中提取特征,通过特征分类的方法并结合步骤2)得到的句式模板的正/负例个数,判定给定的人物关系是否正确。本发明在保证准确率的同时,降低了特征维度,提高了判定效率,可用于挖掘新闻标题中的人物关系,进而发现社会中的焦点人物、热点事件等,便于及时掌握社会动态,监控舆情。
-
公开(公告)号:CN112651243B
公开(公告)日:2023-11-03
申请号:CN202011481330.9
申请日:2020-12-15
Applicant: 中国科学院信息工程研究所
IPC: G06F40/295 , G06F40/216 , G06F40/242 , G06F16/35
Abstract: 本发明公开了一种基于融入结构化实体信息的缩写项目名称识别方法及电子装置,包括:获取知识库锚文本、常用项目名词典及缩写项目名称,结合实体边界识别模块、命名实体抽取模块及缩写项目名称识别模块,对一预训练编码器进行训练,得到缩写项目名称识别模型;将测试文本输入所述缩写项目名称识别模型,识别所述测试文本中的缩写项目名称。本发明提高了文本中缩写项目名称的识别率与召回率。
-
公开(公告)号:CN115965010A
公开(公告)日:2023-04-14
申请号:CN202211365738.9
申请日:2022-10-31
Applicant: 中国科学院信息工程研究所
IPC: G06F40/279 , G06F40/30
Abstract: 本发明公开了一种基于两阶段训练策略的术语抽取方法。本方法为:1)获取目标领域的多篇文档并对其中的术语进行标注,得到该目标领域的术语训练集;2)基于中文预训练语言模型构建术语抽取模型,并利用所述术语训练集对所述术语抽取模型进行训练,得到术语知识模型;3)使用教师学生网络对所述政务术语知识模型进行自训练调优,获得术语抽取模型;4)将所述目标领域的一篇文档a输入所述术语抽取模型,得到该文档a中的术语。本发明通过两阶段训练策略和泛化交叉熵损失函数来缓解远程监督标注数据带来的错误标签问题,从而提升术语抽取模型的泛化能力,最后通过实验论证了该方法的可行性和高效性。
-
-
-
-
-
-
-
-
-