-
公开(公告)号:CN114386422A
公开(公告)日:2022-04-22
申请号:CN202210043218.X
申请日:2022-01-14
Applicant: 淮安市创新创业科技服务中心 , 淮阴工学院
IPC: G06F40/295 , G06F16/955 , G06F16/951 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于企业污染舆情抽取的智能辅助决策方法及装置,首先,面向易污染型企业集散地,针对多媒体实时采集舆情信息,提出基于污染关键词的分布式爬虫;接着,对采集的舆情信息使用BERT‑BiLSTM‑CRF模型抽取主题词信息,获取存在污染信息的关键词;然后,通过抽取生态环境检测标准文本数据集分析对应污染情况所采取的措施;最后,根据企业污染情况提出预警并推送决策建议。本发明将自然语言处理和数据挖掘方法应用于企业污染舆情分析,通过基于污染关键词的分布式爬虫提高对多源异构网页解析的效率,使用信息抽取方法对舆情信息进行识别,并对污染信息做出决策,提高决策者对污染的判定和治理效率。
-
公开(公告)号:CN112269909A
公开(公告)日:2021-01-26
申请号:CN202010964492.1
申请日:2020-09-15
Applicant: 淮阴工学院
IPC: G06F16/951 , G06F16/9535 , G06F40/216 , G06F40/258 , G06F40/30
Abstract: 发明公开了一种基于多源信息融合技术的专家推荐方法,包括:爬取技术专家科技论文、发明专利、基金项目信息和Web网页信息构建知识库,并根据知识库关键词字段构建关键词词典keywords;抽取知识库作者字段进行词频共现分析,构建专家合作关系子网;分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建Web子网;分别通过lda算法对知识库摘要字段提取文档‑主题和主题‑关键词,TF‑IDF算法提取摘要字段权重最大的5个词共同构建主题子网;以专家姓名‑机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果。
-
公开(公告)号:CN112580332B
公开(公告)日:2022-07-12
申请号:CN202011303829.0
申请日:2020-11-19
Applicant: 淮阴工学院
IPC: G06F40/216 , G06F40/242 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 发明公开了一种基于标签分层延深建模的企业画像方法,首先对企业模糊标签进行统计和筛选,筛选出如批发业、零售业等不能完整概括企业特点的标签,使用Bert模型依据企业经营范围和企业标签对筛选出的标签进行分类延深;然后将企业名称、企业简介、经营范围信息整合,基于预先建立好的企业词库进行特征拓展,分别使用TextRank、TF‑IDF、LDA主题模型从综合信息中抽取关键词,将处理后的关键词作为更深层的企业延深标签;最后,将本建模方法应用到企业画像系统中,优化标签精确概括能力。本发明普遍适用于标签延深建模和标签提取问题,充分考虑了标签延深的层次关系,可以有效的提高标签和企业画像系统的准确度。
-
公开(公告)号:CN112101028B
公开(公告)日:2022-08-26
申请号:CN202010824303.0
申请日:2020-08-17
Applicant: 淮阴工学院
IPC: G06F40/295 , G06F40/284 , G06F40/216 , G06F40/30 , G06F40/117 , G06F16/35
Abstract: 本发明公开了一种多特征双向门控领域专家实体抽取方法及系统。该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用BERT方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别,将抽取后的信息建立高质量的实体信息索引项返还WEB应用系统。本发明方法可有效抽取领域专家信息实体,充分利用文本字嵌入特征、边界特征以及上下文特征以获得更好的NER性能,从而解决人工特征提取成本高和专业新词无法识别等问题。
-
公开(公告)号:CN112101014B
公开(公告)日:2022-07-26
申请号:CN202010842606.5
申请日:2020-08-20
Applicant: 淮阴工学院
IPC: G06F40/284 , G06F40/289 , G06F40/117 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种混合特征融合的中文化工文献分词方法,首先构建化工科学文献语料库来训练中文分词任务;接着,利用BiLSTM和CNN提取并融合文档特征,结合边界特征构建条件随机场训练端到端中文分词模型;然后,开放模型接口,对用户输入文本进行分词;最后,通过ECharts渲染分词结果实现化工关键词可视化,系统接受用户反馈并进行处理。本发明将自然语言处理和深度学习方法应用于化工领域,通过特征融合提高对包含中英文专业词汇的化工中文文档分词效果,解决大量新词和中英文混合专业词汇给分词结果造成化工领域术语识别率低的问题。
-
公开(公告)号:CN110309306A
公开(公告)日:2019-10-08
申请号:CN201910530095.0
申请日:2019-06-19
Applicant: 淮阴工学院
Abstract: 本发明公开了一种基于WSD层级记忆网络的文档建模分类方法。首先,通过Bert算法基于词向量得到相似句子文本的句嵌入矩阵,以获得词语之间语义信息;然后,将句子映射到句嵌入矩阵空间得到句子的向量化表示;最后,将分完句文档的序列数据输入到BiLSTM模型中,同时获取每个句子的注意力权重,得到文档的向量化表示,保留了文档内部语义联系。本发明方法可有效获取一种准确度最高的文档建模,充分考虑到词句级联的层次关系,增加文档建模内部的语义联系,对于类间数据相似性较高的文档分类更加准确。
-
公开(公告)号:CN110399815B
公开(公告)日:2023-09-26
申请号:CN201910629487.2
申请日:2019-07-12
Applicant: 淮阴工学院
IPC: G06V30/32 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于VGG16的CNN‑SVM手写签名识别方法,步骤一:标签化处理手写签名图像数据集;步骤二:对数据集依次通过图像灰度化、二值化和尺寸归一化进行预处理;步骤三:采用Kaggle公司的公用数据集ImageNet训练神经网络模型VGG16得到权重集;步骤四:将权重集迁移至CNN并训练,得到初始特征矩阵;步骤五:将初始特征矩阵经过PCA降维后输入SVM进行训练,得到手写签名图像识别结果。本发明基于VGG16改进了CNN‑SVM,有效的提升了手写签名识别效果,增加了图纸签名的使用价值。
-
公开(公告)号:CN112269909B
公开(公告)日:2022-06-03
申请号:CN202010964492.1
申请日:2020-09-15
Applicant: 淮阴工学院
IPC: G06F16/951 , G06F16/9535 , G06F40/216 , G06F40/258 , G06F40/30
Abstract: 发明公开了一种基于多源信息融合技术的专家推荐方法,包括:爬取技术专家科技论文、发明专利、基金项目信息和Web网页信息构建知识库,并根据知识库关键词字段构建关键词词典keywords;抽取知识库作者字段进行词频共现分析,构建专家合作关系子网;分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建Web子网;分别通过lda算法对知识库摘要字段提取文档‑主题和主题‑关键词,TF‑IDF算法提取摘要字段权重最大的5个词共同构建主题子网;以专家姓名‑机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果。
-
公开(公告)号:CN112101028A
公开(公告)日:2020-12-18
申请号:CN202010824303.0
申请日:2020-08-17
Applicant: 淮阴工学院
IPC: G06F40/295 , G06F40/284 , G06F40/216 , G06F40/30 , G06F40/117 , G06F16/35
Abstract: 本发明公开了一种多特征双向门控领域专家实体抽取方法及系统。该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用BERT方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别,将抽取后的信息建立高质量的实体信息索引项返还WEB应用系统。本发明方法可有效抽取领域专家信息实体,充分利用文本字嵌入特征、边界特征以及上下文特征以获得更好的NER性能,从而解决人工特征提取成本高和专业新词无法识别等问题。
-
公开(公告)号:CN112101014A
公开(公告)日:2020-12-18
申请号:CN202010842606.5
申请日:2020-08-20
Applicant: 淮阴工学院
IPC: G06F40/284 , G06F40/289 , G06F40/117 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种混合特征融合的中文化工文献分词方法,首先构建化工科学文献语料库来训练中文分词任务;接着,利用BiLSTM和CNN提取并融合文档特征,结合边界特征构建条件随机场训练端到端中文分词模型;然后,开放模型接口,对用户输入文本进行分词;最后,通过ECharts渲染分词结果实现化工关键词可视化,系统接受用户反馈并进行处理。本发明将自然语言处理和深度学习方法应用于化工领域,通过特征融合提高对包含中英文专业词汇的化工中文文档分词效果,解决大量新词和中英文混合专业词汇给分词结果造成化工领域术语识别率低的问题。
-
-
-
-
-
-
-
-
-