-
公开(公告)号:CN115099241B
公开(公告)日:2024-04-12
申请号:CN202210772206.0
申请日:2022-06-30
Applicant: 郑州信大先进技术研究院
IPC: G06F40/30 , G06F40/289 , G06F40/216
Abstract: 本发明公开了一种基于模型融合的海量旅游网络文本语义分析方法,获取评论数据集,并对数据集中的数据进行预处理;对数据集中的数据进行可视化分析;对评论数据集采用DBSCAN密度聚类,获得数据集D1;利用Word2Vec模型,得到数据集D2;利用Simhash算法,得到数据集D3;利用N‑Gram语言模型得到数据集D4;将数据集D1‑D4中的数据结果综合得到数据集D5;将预处理之后的数据集D5导入TF‑IDF模型和LDA模型,提取得到关键词和主题词;词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;根据特色词、酒店名称、酒店类型相互组合构建三元组,得到知识图谱。
-
公开(公告)号:CN115099241A
公开(公告)日:2022-09-23
申请号:CN202210772206.0
申请日:2022-06-30
Applicant: 郑州信大先进技术研究院
IPC: G06F40/30 , G06F40/289 , G06F40/216
Abstract: 本发明公开了一种基于模型融合的海量旅游网络文本语义分析方法,获取评论数据集,并对数据集中的数据进行预处理;对数据集中的数据进行可视化分析;对评论数据集采用DBSCAN密度聚类,获得数据集D1;利用Word2Vec模型,得到数据集D2;利用Simhash算法,得到数据集D3;利用N‑Gram语言模型得到数据集D4;将数据集D1‑D4中的数据结果综合得到数据集D5;将预处理之后的数据集D5导入TF‑IDF模型和LDA模型,提取得到关键词和主题词;词向量化计算每条评论的关键词向量与主题词向量之间的距离,并根据距离输出结果高的词;根据特色词、酒店名称、酒店类型相互组合构建三元组,得到知识图谱。
-