-
公开(公告)号:CN115329046A
公开(公告)日:2022-11-11
申请号:CN202211001959.8
申请日:2022-08-21
Applicant: 北京信息科技大学 , 北京市工程咨询有限公司
Abstract: 本发明涉及自然语言处理领域的文本检索技术,提升了现有方法在语义匹配上的不足,包括以下步骤:围绕在工程咨询报告范围获取实验所需数据,每个标题标注60段文本数据;将数据以[CLS]标题[SEP]段落[SEP]的形式传入BERT模型,得到标题和段落的向量表示;基于向量分别构建图拓扑结构,并利用图卷积神经网络GCN获取全局结构特征;针对具有上下文信息和全局特征的向量表示,利用排序模型得到第一个得分;将段落对应关键词利用Word2Vec得到向量表示,基于余弦相似度得到第二个得分,对两个得分加权平均得到最终匹配结果;训练模型并更新参数,在测试集上提取文本特征并进行检索。本发明能够提升文本检索的准确性。
-
公开(公告)号:CN115204519A
公开(公告)日:2022-10-18
申请号:CN202210972465.8
申请日:2022-08-17
Applicant: 北京信息科技大学
Abstract: 本发明涉及自然语言处理领域的专利质量等级预测研究,其主要步骤如下:1.利用融合多特征的功效词抽取模型对功效短语进行识别;2.基于Albert‑BiLSTM模型对专利文本中包含的主题词进行抽取;3.将抽取完成的功效短语与主题词用K‑means算法进行聚类,人工构建技术功效矩阵,得到相应的技术功效与技术规模;4.将专利中包含的结构化数字信息单独量化或组合,结合长文本得到132个评价指标,并利用美国专利数据训练一个迁移学习模型,同时利用主动学习技术进行中文数据集的扩充;5.将技术功效矩阵与132个指标相结合进行迁移训练并更新参数,得到最终的预测模型。本发明有效提升了专利质量评估的准确性。
-
公开(公告)号:CN112785529A
公开(公告)日:2021-05-11
申请号:CN202110157624.4
申请日:2021-02-05
Applicant: 北京信息科技大学
Abstract: 本申请公开了一种模板图像匹配矫正方法,包括:矫正模板图像制作;特征点检测与特征点描述;特征点匹配;单应矩阵估计;文档图像矫正。所述矫正模板图像制作,包括:选取一张领域内的透视倾斜文档图像,通过交互式选取其四个顶点,通过透视变换将其矫正得到文档图像的正向平行视图图像。本申请实施例提供的模板图像匹配矫正方法,使用简单便捷、矫正速度快、矫正效果好、抗干扰性强且能够有效避免当文档图像倾斜角较大时引起的矫正文档图像侧立或倒立的情况,可以有效胜任领域性的文档图像矫正任务。
-
公开(公告)号:CN112784603A
公开(公告)日:2021-05-11
申请号:CN202110157623.X
申请日:2021-02-05
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种专利功效短语识别方法,包括:融合字符级特征和单词级特征;对字符级特征使用word2vec或Bert进行向量化,对单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量;在嵌入层融合各特征向量输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列。本申请实施例提供的专利功效短语识别方法,融合了融合字符级特征和单词级特征,使用注意力机制将词表匹配得到的对应字符的单词集合向量化后,与字符级各特征的向量表示融合为最终的输入向量,在精确度、召回率和F1值这三个方面的表现均更为优秀,精确度高,召回率高,F1值高,有效提高了专利功效短语的识别效果。
-
公开(公告)号:CN112417854A
公开(公告)日:2021-02-26
申请号:CN202011470330.9
申请日:2020-12-15
Applicant: 北京信息科技大学
IPC: G06F40/258 , G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本申请公开了一种中文文档抽取式摘要方法,包括:文本向量化;识别基本篇章单元;抽取摘要句,所述文本向量化,包括:对输入文本进行分句、分词、标识符插入操作,使用中文Bert预处理模型,对文本进行向量化。本申请实施例提供的中文文档抽取式摘要方法,利用Bert模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Transformer神经网络抽取模型,实现基本篇章单元的抽取,提升了摘要句抽取的准确率。
-
公开(公告)号:CN112380844A
公开(公告)日:2021-02-19
申请号:CN202011101527.5
申请日:2020-10-15
Applicant: 北京信息科技大学 , 复杂系统仿真总体重点实验室
IPC: G06F40/247 , G06F40/211
Abstract: 本申请公开了一种武器装备属性同义词扩展方法,包括:对爬取的文本进行预处理;对预处理后的文本进行分词;利用Glove模型和Word2Vec模型分别扩展同义词;对Glove模型扩展出的同义词和Word2Vec模型扩展出的同义词取交集,获得扩展结果。本申请实施例提供的武器装备属性同义词扩展方法,对文本分词后,分别采用Word2vec模型和Glove模型训练词向量以扩展同义词,将二者扩展的同义词结果取交集后得到更准确的同义词,扩展结果的查准率、召回率和F1值均较高,扩展效果好。
-
公开(公告)号:CN111027637A
公开(公告)日:2020-04-17
申请号:CN201911315621.8
申请日:2019-12-19
Applicant: 北京洛奇智慧医疗科技有限公司 , 北京信息科技大学
Abstract: 本申请公开了一种文字检测方法及计算机可读存储介质,方法包括:对图像进行预处理;利用CTPN网络模型对预处理后的图像进行文字检测。所述对图像进行预处理包括图像矫正、图像切割和图像增强。所述图像切割包括:通过霍夫直线检测,得到若干线段;通过水平扫描来拼接线段;统计每一行像素覆盖的情况,最大覆盖行即为直线行;将检测的若干条水平直线进行排序,最大间隔的相邻直线之间即为待检测区域;剔除敏感区域,保留待检测区域。本申请实施例提供的文字检测方法,进行图像矫正,敏感信息去除和图像增强的预处理,采用改进的CTPN网络进行文字检测,检测的准确率、召回率、F1值均大大提升,能够很好地满足实际应用的需要。
-
公开(公告)号:CN109977407A
公开(公告)日:2019-07-05
申请号:CN201910236193.3
申请日:2019-03-27
IPC: G06F17/27
Abstract: 本发明涉及一种基于词嵌入的书面语篇多层次差异分析方法,包括:步骤1)对独白语篇与对话语篇进行差异分析;步骤2)分析不同字/词嵌入与语篇用词之间的关联性。所述步骤1)包括:结构差异分析、关系差异分析、用语差异分析。所述步骤2)包括:对比独白语篇和对话语篇中出现的字/词与各个数据集字/词嵌入的重合情况;使用字/词嵌入的目的是对字词用特定维度的向量进行表示,进行模型的训练。本发明通过统计分析方法对独白语篇和对话语篇进行多层次、多角度的差异分析,找出了在独白语篇和对话语篇中存在从结构到具体功能分布之间的差异,从篇章结构以及句长、词汇用法等层面对这些差异加以表现,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109754042A
公开(公告)日:2019-05-14
申请号:CN201811566671.9
申请日:2018-12-21
Applicant: 北京信息科技大学
Inventor: 游新冬
Abstract: 一种商标图像隐形识别防伪方法,该防伪方法将一幅二维码图像互补的分割为一个商标图像和一个商标图像的互补图像两部分,分割后的两部分图像可互补的构成原二维码图像,将分割后的商标图像利用普通油墨印制在印刷品的二维码图像区上,利用同色异谱配色油墨将分割后的商标图像的互补图像与商标图像互补的印制在印刷品的二维码图像区上,在可见光下在印刷品上的二维码图像区域显现商标图像,在红外光下在印刷品的二维码图像区域显现原二维码图像,通过扫描可获取正确的原二维码信息,该方法可以将商标识别、二维码识别和印刷品防伪三种功能和为一体,可以用这种方法来鉴别标签、票据、有价证券等印刷品是否存在假冒侵权问题。
-
公开(公告)号:CN109558905A
公开(公告)日:2019-04-02
申请号:CN201811403709.0
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06K9/62
Abstract: 本发明涉及一种基于K-means的能耗感知的数据分类方法,包括:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K-means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。本发明通过提取数据的潮汐特性和季节性特性,利用K-means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果,能耗低。
-
-
-
-
-
-
-
-
-