-
公开(公告)号:CN112836062B
公开(公告)日:2022-05-13
申请号:CN202110039879.0
申请日:2021-01-13
Applicant: 哈尔滨工程大学 , 中电科大数据研究院有限公司
IPC: G06F16/36 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明属于关系抽取技术领域,具体涉及一种文本语料库的关系抽取方法。本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模,并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题,提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充,然后利用潜在关系向量和注意力机制得到句子的关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型,并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。
-
公开(公告)号:CN112836062A
公开(公告)日:2021-05-25
申请号:CN202110039879.0
申请日:2021-01-13
Applicant: 哈尔滨工程大学 , 中电科大数据研究院有限公司
IPC: G06F16/36 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明属于关系抽取技术领域,具体涉及一种文本语料库的关系抽取方法。本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模,并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题,提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充,然后利用潜在关系向量和注意力机制得到句子的关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型,并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。
-
公开(公告)号:CN110427458B
公开(公告)日:2022-10-14
申请号:CN201910596187.9
申请日:2019-07-03
Applicant: 南京理工大学 , 中电科大数据研究院有限公司
Abstract: 本发明公开了一种基于双门LSTM的社交网络双语的五分类情感分析方法。该方法为:使用人工标注好的数据集作为初始训练数据集,对测试数据集进行数据清洗以及分词处理;构建双门LSTM网络模型,训练已标注好的五分类训练数据集,并构建英汉双语情感词词典,对数据集进行向量化处理,进而训练双门LSTM网络模型,对分词处理过的测试数据集进行情感特征分类,使用分类器选出情感置信度高的数据加入已标注的测试数据集中,作为新的训练数据集用于训练分类器,循环迭代,直至对所有未标注的测试数据集完成文本情感分类;使用训练好的网络模型,对输入文本进行感情特征分析。本发明能够对社交网络上用户的中英文评论信息进行准确的情感信息抽取和分析。
-
公开(公告)号:CN112347496A
公开(公告)日:2021-02-09
申请号:CN202011282113.7
申请日:2020-11-16
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种细粒度数据安全访问控制方法,包括数据拥有方和数据使用方,数据使用方发送数据使用请求,去中心化的区块链记账节点判断数据使用请求是否符合访问控制策略,如符合则返回数据拥有方上传的加密数据供数据使用方下载;访问控制策略由数据拥有方设置。本发明还提供一种细粒度数据安全访问控制系统。本发明基于区块链结合加密存储的方式,利用区块链独特的多中心化、防篡改、可追溯、防单点故障等安全可信特性,并利用加密存储的方式,有效避免数据泄露、数据盗取和数据篡改的情况发生。
-
公开(公告)号:CN111309703A
公开(公告)日:2020-06-19
申请号:CN201910841167.3
申请日:2019-09-06
Applicant: 北京交通大学 , 中电科大数据研究院有限公司
IPC: G06F16/20 , G06F16/2458 , G16H10/60
Abstract: 本发明涉及自动编码技术领域,提供一种疾病编码自动转换的方法及装置,其组成部分包括总线、前端页面、通信接口、后端逻辑和数据库。大致方法包括:首先,从网页前端获取疾病数据集;其次,对数据集中的ICD-10编码转换为ICD-11编码;然后,对未匹配成功的数据进行相应处理;最后,对转换后的结果进行保存,得到ICD-11的编码结果并输出。与现有技术相比,本发明提供的疾病编码自动转换方法及装置提供了ICD编码自动更新至最新国际通用版本的方法。
-
公开(公告)号:CN113590818B
公开(公告)日:2023-05-26
申请号:CN202110742255.5
申请日:2021-06-30
Applicant: 中国电子科技集团公司第三十研究所 , 中电科大数据研究院有限公司
IPC: G06F16/35 , G06F18/22 , G06F18/214 , G06F18/2413 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于CNN与GRU及KNN融合的政务文本数据分类方法,包括:将政务文本数据划分为原始训练样本与待测样本;从原始训练样本中提取标题信息,构建标题信息训练样本;提取训练样本的特征,分别得到各自的特征向量,输入至CNN进行处理得到CNN特征向量以及输入至GRU得到各自的GRU特征向量;将CNN特征向量与GRU特征向量融合,分别得到原始训练样本的融合特征向量与标题信息训练样本的融合特征向量;分别对融合特征向量进行降维,并将降维后的融合特征向量加权合并得到最终的训练样本特征向量;对待测样本进行类似处理得到待测样本特征向量;采用KNN方法完成待测样本分类。本发明提出的方法能够提取出更多有效的特征信息,有效的提高了文本分类的准确率。
-
公开(公告)号:CN113590818A
公开(公告)日:2021-11-02
申请号:CN202110742255.5
申请日:2021-06-30
Applicant: 中国电子科技集团公司第三十研究所 , 中电科大数据研究院有限公司
Abstract: 本发明提供了一种基于CNN与GRU及KNN融合的政务文本数据分类方法,包括:将政务文本数据划分为原始训练样本与待测样本;从原始训练样本中提取标题信息,构建标题信息训练样本;提取训练样本的特征,分别得到各自的特征向量,输入至CNN进行处理得到CNN特征向量以及输入至GRU得到各自的GRU特征向量;将CNN特征向量与GRU特征向量融合,分别得到原始训练样本的融合特征向量与标题信息训练样本的融合特征向量;分别对融合特征向量进行降维,并将降维后的融合特征向量加权合并得到最终的训练样本特征向量;对待测样本进行类似处理得到待测样本特征向量;采用KNN方法完成待测样本分类。本发明提出的方法能够提取出更多有效的特征信息,有效的提高了文本分类的准确率。
-
公开(公告)号:CN111312345A
公开(公告)日:2020-06-19
申请号:CN201910841382.3
申请日:2019-09-06
Applicant: 北京交通大学 , 中电科大数据研究院有限公司
Abstract: 本发明涉及可视化方法与技术领域,是一套支持医疗数据智能可视化展示的方法及装置,可应用于各类医疗数据分析报告或者可视化展示需求下的决策支持场景。其中,所述方法包括:首先获取来自数据库或者上传的医疗数据集;其次,对获取到的医疗数据集进行降维,并对不同类型的数据项进行分类;然后,基于降维后数据集特点,判断数据集所处的医疗场景,并匹配相应的可视化图表类型;最后,对选中的数据项进行可视化图表的可视化处理,得到可视化图表。与现有的技术相比,本发明提供了医疗数据可视化的方法,辅助医疗数据分析和管理决策更好地进行。
-
公开(公告)号:CN115712909B
公开(公告)日:2023-08-18
申请号:CN202211384145.7
申请日:2022-11-07
Applicant: 中电科大数据研究院有限公司
Abstract: 本申请公开了一种基于区块链的文本水印嵌入方法、溯源方法及系统,用于提高水印隐蔽性、安全性、鲁棒性和可信度。本申请嵌入方法包括认证平台生成原始文本的水印索引并向数据持有端发送水印索引;数据持有端对原始文本进行水印索引的循环嵌入,循环嵌入为对段落进行增/删字符修改,以使得修改后的文本段落的字符数量奇/偶性与二进制编码对应,以将水印索引循环嵌入至文本中得到水印文本;认证平台生成水印文本的完整水印,调用区块链接口,通过智能合约对完整水印进行区块链上链存证。本申请溯源方法包括认证平台根据水印索引判断待溯源文件是否存在内容篡改;若是,则向数据持有端反馈篡改提示和完整水印;若否,则向数据持有端反馈完整水印。
-
公开(公告)号:CN115712909A
公开(公告)日:2023-02-24
申请号:CN202211384145.7
申请日:2022-11-07
Applicant: 中电科大数据研究院有限公司
Abstract: 本申请公开了一种基于区块链的文本水印嵌入方法、溯源方法及系统,用于提高水印隐蔽性、安全性、鲁棒性和可信度。本申请嵌入方法包括认证平台生成原始文本的水印索引并向数据持有端发送水印索引;数据持有端对原始文本进行水印索引的循环嵌入,循环嵌入为对段落进行增/删字符修改,以使得修改后的文本段落的字符数量奇/偶性与二进制编码对应,以将水印索引循环嵌入至文本中得到水印文本;认证平台生成水印文本的完整水印,调用区块链接口,通过智能合约对完整水印进行区块链上链存证。本申请溯源方法包括认证平台根据水印索引判断待溯源文件是否存在内容篡改;若是,则向数据持有端反馈篡改提示和完整水印;若否,则向数据持有端反馈完整水印。
-
-
-
-
-
-
-
-
-