-
公开(公告)号:CN110135493A
公开(公告)日:2019-08-16
申请号:CN201910400319.6
申请日:2019-05-15
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种新闻话题跟踪方法,将动态话题模型与BP神经网络相结合,先将时间-事件空间模型根据实际需要改变相应权值,再通过BP神经网络训练完成样本与结果的映射关系,并且通过将测试语料分为多份,动态地训练话题模型,不断更新模型中的关键词和它的权重,再重新训练神经网络,接着进行新的分类,完成事件跟踪。本发明在动态话题模型中引入自适应的更新策略,通过不断地更新话题模型解决了事件跟踪过程中出现的话题偏移造成的正确率下降的问题,能够达到较好的话题跟踪效果,可以很好地满足实际应用的需要。
-
公开(公告)号:CN115862020A
公开(公告)日:2023-03-28
申请号:CN202211526486.3
申请日:2022-12-01
Applicant: 北京信息科技大学
IPC: G06V30/142 , G06F16/24
Abstract: 本发明提供一种实时的全自动双轮毂字符识别系统,能够自动识别轮毂双侧内容并存储,对模糊和有污渍的数据具有较高的识别率。所述系统包括:轮毂装置、plc(可编程逻辑控制器)、图像采集设备、工控机。轮毂装置包括轮毂和车轨,轮毂为待识别物体位于车轨上方;plc配备传感器用于检测轮毂是否到位和控制系统拍照;图像采集设备由相机、光源和灯罩组成,用于获取轮毂双侧的数据;工控机安装GPU和应用程序;应用程序包括通信模块、识别模块、展示和存储等模块。所述工控机连接plc和相机设备,程序接受到plc拍照信号后启动相机拍照,对采集的图片进行识别,分析识别结果用于展示和存储。本发明适用于工业自动化及目标检测技术领域。
-
公开(公告)号:CN110704610A
公开(公告)日:2020-01-17
申请号:CN201910404983.8
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/205
Abstract: 本发明涉及一种体育新闻战报主题分类方法,包括:步骤1)对语料进行预处理;步骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别特征对句子主题进行分类。步骤2)包括:首先制定标注规则,完全按照类别定义进行标注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语料平均分给多个人进行标注。本发明提出的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用于为领域模板库构建提供支持,可以很好地满足实际应用的需要。
-
公开(公告)号:CN119807417A
公开(公告)日:2025-04-11
申请号:CN202411967701.2
申请日:2024-12-30
Applicant: 北京信息科技大学
Abstract: 本申请提供一种文本多标签分类方法、分类装置、电子设备及存储介质。该文本多标签分类方法,包括:将技术领域和需要分类的标签输入至大语言模型,以使大语言模型生成对应技术领域下每个标签的定义;使用大语言模型对文献数据进行标注,得到标注数据;使用所述标注数据对大语言模型进行LoRA微调,得到微调的模型,所述微调的模型用于多标签分类;基于每个标签的定义,利用所述微调后的模型,对文本进行多标签分类。该文本多标签分类方法,能够精准理解技术标签、学习文献中蕴含的知识,文献数据多标签分类任务的分类效果较好,大幅提高了文献数据多标签分类任务的分类准确性和分类效果。
-
公开(公告)号:CN116467619A
公开(公告)日:2023-07-21
申请号:CN202310206097.0
申请日:2023-03-06
Applicant: 北京信息科技大学
IPC: G06F18/24 , G06F18/214 , G06N3/0464 , G06N3/0499 , G06N3/08
Abstract: 本发明涉及存储系统领域中的数据分类存储,通过挖掘数据访问的长周期季节特征,构建深度学习模型,实现数据分类并存储于不同性能的设备,以实现存储系统的高能效存储,包括以下步骤:(一)、对数据访问中的长周期季节特征进行分析;(二)、依据长周期季节特征确定数据类别数目;(三)、构建训练模型用的训练集和测试集;(四)、构建BERT‑RCNN模型抽取数据周期特征并完成分类。(五)、构建存储系统能耗和成本模型,得到分类存储的能耗和成本,以验证方法的有效性。本发明通过构建BERT‑RCNN分类模型,能够更有效地实现数据分类存储,降低存储能耗和成本。
-
公开(公告)号:CN115270785A
公开(公告)日:2022-11-01
申请号:CN202210975168.9
申请日:2022-08-17
Applicant: 北京信息科技大学
IPC: G06F40/284 , G06F40/295 , G06F16/35 , G06F16/36 , G06N3/04 , G06N3/08
Abstract: 本发明涉及自然语言处理领域的知识抽取技术,特别涉及对武器装备知识领域的三元组抽取,可以充分挖掘非结构化信息,缓解模型对样本标注的依赖。包括以下步骤:(一)、通过爬虫对舰船、飞机等信息进行了采集并持久化至容器。(二)、使用自编码方式结合自注意力机制对文本的双向上下文以获取特征向量;(三)、将特征向量投入结合多轮对抗攻击的头实体识别器将其识别为头实体或尾实体;(四)、针对不同的头实体类型获取到句子向量,以字为最小粒度进行融合;(五)、在关系尾实体识别模块,指定关系对应的实体识别;本发明可获得更好缓解武器装备领域遇到的单实体重叠问题和实体对重叠问题,实现对武器装备领域的复杂关系以及隐含关系进行抽取。
-
公开(公告)号:CN110807084A
公开(公告)日:2020-02-18
申请号:CN201910404547.0
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06K9/62 , G06N3/08
Abstract: 本发明涉及一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,包括以下步骤:步骤1):对专利文本进行预处理,识别出术语特征,同时加入位置信息,并通过改进的TextRank算法获得类别关键词特征,并将其组成向量矩阵;步骤2):将向量矩阵导入Bi-LSTM模型中,采用注意力机制获得文本信息的整体特征;步骤3):利用最大池化层选择每个句子的关键特征作为局部特征;步骤4):将整体特征和局部特征融合;步骤5):使用softmax分类器输出分类结果。本发明以专利术语关系抽取为基础,针对传统深度学习方法中存在的长距离依赖问题,本发明提出一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法。通过各种实验对比,本发明的效果优于已有的方法,可以很好地满足实际应用的需要。
-
公开(公告)号:CN114065780A
公开(公告)日:2022-02-18
申请号:CN202111212884.3
申请日:2021-10-19
Applicant: 北京信息科技大学
IPC: G06F40/58 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种机器翻译方法,通过Transformer模型实现,所述Transformer模型由多个同构的编码器和解码器组成,所述编码器用于编码中文的新能源专利文本,所述解码器用于产出对应英文专利的翻译结果;所述编码器与所述解码器都使用多头自注意力机制来捕获句子内部结构,所述编码器与所述解码器之间通过注意力机制连接来进行对齐翻译。本申请的机器翻译方法,能有效将术语信息整合到新能源中英专利机器翻译中,提高了翻译质量,并且大部分术语词都能得到正确的翻译。
-
公开(公告)号:CN112561313A
公开(公告)日:2021-03-26
申请号:CN202011470328.1
申请日:2020-12-15
Applicant: 北京信息科技大学
Abstract: 本申请公开了一种专利质量等级的确定方法,包括:利用将指标量化模型与多任务学习序列模型相结合得到的模型,对专利的质量等级进行确定。所述指标量化模型包括依次连接的第一全连接层、第二全连接层、Softmax层和输出层。所述将指标量化模型与多任务学习序列模型相结合得到的模型包括依次连接的嵌入层、BiLSTM层、CRF层、注意力分配、全连接层、Softmax层和输出层。所述所述将指标量化模型与多任务学习序列模型相结合得到的模型包括嵌入层、BiLSTM、BiLSTM+Attention、BiGRU+Attention与多任务学习方法。本申请的方法将指标量化模型与多任务学习序列模型相结合,对专利的等级进行确定,确定结果准确,准确度高。
-
公开(公告)号:CN112418182A
公开(公告)日:2021-02-26
申请号:CN202011470737.1
申请日:2020-12-15
Applicant: 北京信息科技大学
Abstract: 本申请公开了一种红外影厅图像人数统计方法,包括:对红外影厅图像进行预处理;针对预处理后的图像,提取前景图像;根据随机采样的数据进行拟合,根据拟合结果进行校正,计算前景面积;建立所述前景面积与人数的线性回归关系,计算人数。本申请的方法,将多个影厅的原图与其前景图像进行端到端训练,实现不同影厅图像的前景提取,再结合改进透视效应校正方法,提取前景面积并建立其与人数的回归关系,得到最终人数统计结果,本申请实施例提供的方法提取效果好,分类准确率、召回率及前景准确率较高,假正率和假负率较低,无论是在人群稀疏还是密集场景,均能够得到较好的前景提取效果,增强了算法对不同场景、不同光线的鲁棒性。
-
-
-
-
-
-
-
-
-