-
公开(公告)号:CN116384402A
公开(公告)日:2023-07-04
申请号:CN202310415757.6
申请日:2023-04-18
Applicant: 华能煤炭技术研究有限公司 , 北京信息科技大学
IPC: G06F40/295 , G06F40/30 , G06F40/242 , G06F16/36 , G06F16/35 , G06N3/0442 , G06N3/08 , G06N3/084
Abstract: 本发明涉及煤矿机电设备领域,特别涉及一种融合机电设备本体库术语词结合对比学习的煤矿机电设备命名实体识别方法。该方法首先使用Word2Vec模型预训练机电设备术语词向量,并利用多术语多头注意力机制将术语词向量与字向量融合。然后采用Bi‑LSTM模型进行编码,在损失函数上采用对比学习做改进,将Bi‑LSTM计算的相对熵损失作为CRF损失的正则项。最后,利用CRF模型解码得到最优标签。实验结果表明,该方法在自构的煤矿机电设备语料上的准确率、召回率和F1值均优于现有主流方法。本发明的技术方案可以有效地识别煤矿机电设备领域中存在实体命名相似以及部分重点设备名称较长的问题,为智能矿山的构建提供了有力的支持。
-
公开(公告)号:CN115952802A
公开(公告)日:2023-04-11
申请号:CN202211001912.1
申请日:2022-08-21
Applicant: 华能煤炭技术研究有限公司 , 北京信息科技大学
IPC: G06F40/30 , G06F16/332 , G06F16/35 , G06N3/045 , G06N3/08
Abstract: 本发明涉及自然语言处理领域的文本处理方法,提升现有基于切分等方式处理长文本会产生信息丢失的不足,包括以下步骤:将文本按句子切分成多段内容;将每句话以[CLS]句子[SEP]的形式传入BERT预训练语言模型,获取最后一层隐藏层向量以及[CLS]对应向量;使用词注意力机制获得句子向量;获得原文所有句子的句子向量并拼接,以[SCLS]向量的形式传入transformer模型,获取最后一层隐藏层向量以及[SCLS]对应向量;使用句注意力机制获得文本向量;训练检索网络模型并更新参数,在测试集上提取文本特征并进行测试。本发明可获得更好的处理长文本,能够更为有效的提升长文本分类准确性,并且复杂度更低。
-
公开(公告)号:CN116595169A
公开(公告)日:2023-08-15
申请号:CN202310415758.0
申请日:2023-04-18
Applicant: 北京信息科技大学 , 华能煤炭技术研究有限公司
IPC: G06F16/35 , G06F16/332 , G06F40/186 , G06N3/08 , G06N3/047
Abstract: 本专利摘要涉及一种基于提示学习的煤矿生产领域问答意图分类方法。问答系统是智能化信息处理的重要领域,也是煤矿智能化建设不可或缺的一部分。在实际应用中,意图分类是智能问答的重要子任务,它可以帮助问答系统更好地理解用户查询意图并提供准确答案。本方法通过引入不同的提示模板对BERT预训练模型进行微调,从而提高问答意图分类的准确性。实验结果表明,引入提示模板后,模型的准确率、召回率和F1值均有所提高。此外,该方法还可以在少样本场景下快速适配新领域的任务,具有较好的应用价值。因此,本专利摘要所述的基于提示学习的煤矿生产领域问答意图分类方法可用于问答系统的开发和应用。
-
公开(公告)号:CN116384394A
公开(公告)日:2023-07-04
申请号:CN202310061983.9
申请日:2023-02-04
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06F18/22 , G06F18/25 , G06V10/82 , G06N7/01 , G06N3/0464 , G06N3/0442 , G06N3/045
Abstract: 本发明设计自然语言处理领域的多模态实体识别方法,特别涉及针对模态之间信息交互不足,获得更准确的模型间信息相关性,包括以下步骤:将文本按字切分并转为数字标记输入BERT预训练模型,获取最后一层隐藏层向量;将相应的图像信息输入进RESNET模型获得图像隐藏层向量,同时使用目标检测工具识别图像中包含的目标,通过计算实体和图像中目标的相关性,对模态之间的相关性进行判断;通过对比学习的方式拉近文本向量和图像向量的嵌入分布距离,优化文本向量的表示意义;同时开发了一种动态门机制,更好的利用模态间相关性来增强对比学习的效果;在测试集上提取文本特征并进行测试。本发明可以获得表征含义更丰富的文本表示,能够更为有效的提升多模态实体识别的准确性。
-
公开(公告)号:CN115862020A
公开(公告)日:2023-03-28
申请号:CN202211526486.3
申请日:2022-12-01
Applicant: 北京信息科技大学
IPC: G06V30/142 , G06F16/24
Abstract: 本发明提供一种实时的全自动双轮毂字符识别系统,能够自动识别轮毂双侧内容并存储,对模糊和有污渍的数据具有较高的识别率。所述系统包括:轮毂装置、plc(可编程逻辑控制器)、图像采集设备、工控机。轮毂装置包括轮毂和车轨,轮毂为待识别物体位于车轨上方;plc配备传感器用于检测轮毂是否到位和控制系统拍照;图像采集设备由相机、光源和灯罩组成,用于获取轮毂双侧的数据;工控机安装GPU和应用程序;应用程序包括通信模块、识别模块、展示和存储等模块。所述工控机连接plc和相机设备,程序接受到plc拍照信号后启动相机拍照,对采集的图片进行识别,分析识别结果用于展示和存储。本发明适用于工业自动化及目标检测技术领域。
-
公开(公告)号:CN115759011A
公开(公告)日:2023-03-07
申请号:CN202211519223.X
申请日:2022-12-01
Applicant: 北京信息科技大学
IPC: G06F40/166 , G06F16/22 , G06V30/148 , G06V30/412 , G06F16/26 , G06V30/19 , G06F16/28
Abstract: 本发明涉及一种端到端的通用型表格检测系统,用于帮助工作人员快速提取文件中的表格信息,提高工作效率。所述系统包括:表格定位、表格单元格检测、表格结构化识别、表格文字识别、结构化数据输出、数据存储。所述表格定位主要通过深度学习算法定位文件中表格的位置;所述表格单元格检测旨在检测图像中的表格单元格和单元格位置信息;所述表格结构识别旨在检测单元格间的行列关系;所述表格文字识别旨在使用OCR技术识别单元格内的文字信息;所述结构化输出旨在将上述几个步骤中识别到的数据输出成一个key‑value形式的可编辑二维表;所述数据存储旨在将二维表中的数据存入数据库;本发明适用于智能化办公或需要大量表格处理的领域。
-
公开(公告)号:CN112507717A
公开(公告)日:2021-03-16
申请号:CN202011482958.0
申请日:2020-12-16
Applicant: 北京信息科技大学
IPC: G06F40/295 , G16H15/00 , G06N3/04
Abstract: 本申请公开了一种融合实体关键字特征的医疗领域实体分类方法,包括:文本向量化操作;特征提取;序列标注。本申请实施例提供的融合实体关键字特征的医疗领域实体分类方法,采用TF‑IDF辅助构建关键字表,将这些关键字作为特征输入模型,采用BERT模型进行文本向量化操作生成字向量,将字向量输入BILSTM‑CNN混合模型学习特征,再经过CRF层进行序列标注,能够实现医疗领域实体分类,且能够大大提高医疗领域实体分类的准确率、召回率和F1值。
-
公开(公告)号:CN110704610A
公开(公告)日:2020-01-17
申请号:CN201910404983.8
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/205
Abstract: 本发明涉及一种体育新闻战报主题分类方法,包括:步骤1)对语料进行预处理;步骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别特征对句子主题进行分类。步骤2)包括:首先制定标注规则,完全按照类别定义进行标注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语料平均分给多个人进行标注。本发明提出的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用于为领域模板库构建提供支持,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109740123A
公开(公告)日:2019-05-10
申请号:CN201811566675.7
申请日:2018-12-21
Applicant: 北京信息科技大学
IPC: G06F17/22 , G06F16/2452
Abstract: 本发明涉及一种使用实时数据生成体育赛事战报的方法,使用基于Attention的序列模型TransFormer将关键事件转化为战报句,所述方法包括:使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报。本发明提供的使用实时数据生成体育赛事战报的方法,使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报,从结构化的实时数据里抽取关键事件,实时数据结构规范,内容精确,因此抽取效果很好,克服了现有技术存在的缺陷,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109726787A
公开(公告)日:2019-05-07
申请号:CN201811566672.3
申请日:2018-12-21
Applicant: 北京信息科技大学
Inventor: 游新冬
IPC: G06K19/06
Abstract: 一种页面隐形多码互补医药制品包装防伪方法,该防伪方法由医药基本信息、医药生产商信息和医药销售商信息生成大小、尺寸和形状相同的三幅二维码图像,将每幅二维码图像都互补的分割为两块以上平面图形图像,其中一部分图像称为缺码图像,另一部分图像称为补码图像,利用同色异谱配色油墨将三幅二维码图像的缺码图像构成的一幅与二维码图像的大小、尺寸和形状相同的伪二维码图像印刷在医药制品外包装上的一个和二维码图像大小和形状相同的区域上,在可见光下该区域上显现页面的原文字和图像,在红外光下该区域上显现伪二维码图像,利用三幅补码图像可分别生成三幅二维码图像,用这种方法可以鉴别医药制品是否存在假冒侵权问题。
-
-
-
-
-
-
-
-
-