-
公开(公告)号:CN112269909B
公开(公告)日:2022-06-03
申请号:CN202010964492.1
申请日:2020-09-15
申请人: 淮阴工学院
IPC分类号: G06F16/951 , G06F16/9535 , G06F40/216 , G06F40/258 , G06F40/30
摘要: 发明公开了一种基于多源信息融合技术的专家推荐方法,包括:爬取技术专家科技论文、发明专利、基金项目信息和Web网页信息构建知识库,并根据知识库关键词字段构建关键词词典keywords;抽取知识库作者字段进行词频共现分析,构建专家合作关系子网;分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建Web子网;分别通过lda算法对知识库摘要字段提取文档‑主题和主题‑关键词,TF‑IDF算法提取摘要字段权重最大的5个词共同构建主题子网;以专家姓名‑机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果。
-
公开(公告)号:CN114386422A
公开(公告)日:2022-04-22
申请号:CN202210043218.X
申请日:2022-01-14
申请人: 淮安市创新创业科技服务中心 , 淮阴工学院
IPC分类号: G06F40/295 , G06F16/955 , G06F16/951 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于企业污染舆情抽取的智能辅助决策方法及装置,首先,面向易污染型企业集散地,针对多媒体实时采集舆情信息,提出基于污染关键词的分布式爬虫;接着,对采集的舆情信息使用BERT‑BiLSTM‑CRF模型抽取主题词信息,获取存在污染信息的关键词;然后,通过抽取生态环境检测标准文本数据集分析对应污染情况所采取的措施;最后,根据企业污染情况提出预警并推送决策建议。本发明将自然语言处理和数据挖掘方法应用于企业污染舆情分析,通过基于污染关键词的分布式爬虫提高对多源异构网页解析的效率,使用信息抽取方法对舆情信息进行识别,并对污染信息做出决策,提高决策者对污染的判定和治理效率。
-
公开(公告)号:CN112269909A
公开(公告)日:2021-01-26
申请号:CN202010964492.1
申请日:2020-09-15
申请人: 淮阴工学院
IPC分类号: G06F16/951 , G06F16/9535 , G06F40/216 , G06F40/258 , G06F40/30
摘要: 发明公开了一种基于多源信息融合技术的专家推荐方法,包括:爬取技术专家科技论文、发明专利、基金项目信息和Web网页信息构建知识库,并根据知识库关键词字段构建关键词词典keywords;抽取知识库作者字段进行词频共现分析,构建专家合作关系子网;分别使用正则表达式和命名实体识别算法抽取Web页面专家研究方向与个人信息构建Web子网;分别通过lda算法对知识库摘要字段提取文档‑主题和主题‑关键词,TF‑IDF算法提取摘要字段权重最大的5个词共同构建主题子网;以专家姓名‑机构为约束条件结合三种子网构建并计算专家信息网络中专家中心度值,对专家中心度值排序并推荐排名前5的专家作为推荐结果。
-
公开(公告)号:CN114386422B
公开(公告)日:2023-09-15
申请号:CN202210043218.X
申请日:2022-01-14
申请人: 淮安市创新创业科技服务中心 , 淮阴工学院
IPC分类号: G06F40/295 , G06F16/955 , G06F16/951 , G06F18/22 , G06F18/23213 , G06N3/0442 , G06N3/08
摘要: 本发明公开了一种基于企业污染舆情抽取的智能辅助决策方法及装置,首先,面向易污染型企业集散地,针对多媒体实时采集舆情信息,提出基于污染关键词的分布式爬虫;接着,对采集的舆情信息使用BERT‑BiLSTM‑CRF模型抽取主题词信息,获取存在污染信息的关键词;然后,通过抽取生态环境检测标准文本数据集分析对应污染情况所采取的措施;最后,根据企业污染情况提出预警并推送决策建议。本发明将自然语言处理和数据挖掘方法应用于企业污染舆情分析,通过基于污染关键词的分布式爬虫提高对多源异构网页解析的效率,使用信息抽取方法对舆情信息进行识别,并对污染信息做出决策,提高决策者对污染的判定和治理效率。
-
公开(公告)号:CN113449106A
公开(公告)日:2021-09-28
申请号:CN202110718147.4
申请日:2021-06-28
申请人: 淮阴工学院
IPC分类号: G06F16/35 , G06F40/242 , G06F40/289 , G06K9/62 , G06N3/04
摘要: 本发明公开了一种基于ATT‑CN的医疗文本分类方法及装置,基于已构建好的人工实体标注的医疗文本标签数据,对医疗文本数据进行数据处理,首先采用结巴分词工具对获得的医疗文本进行分词处理,采用word2vec对分词后的医疗文本训练词向量模型并构建包含所有医疗文本数据词的汇表;其次,对标签数据集和医疗文本进行向量化和归一化操作并获得文本归一化后的语义特征;最后将医疗文本数据集划分为训练集和测试集,将训练集进行ATT‑CN分类训练,使用测试集对分类训练模型进行测试并获得分类结果。本发明方法适用于医疗文本分类领域能够对医疗文本准确的分类。
-
-
-
-