-
公开(公告)号:CN110991167A
公开(公告)日:2020-04-10
申请号:CN201911233518.9
申请日:2019-12-05
Applicant: 北京理工大学
IPC: G06F40/247 , G06F40/30 , G06F40/279
Abstract: 本发明涉及一种基于情感层次体系的情感词典构建方法,属于情感分析领域。包含如下步骤:步骤一:将语料按照情感层次体系进行拆分,并提取出未知情感词;步骤二:按照未知情感词构字,计算未知情感词的权重,构建基于字的情感词典;步骤三:通过复合句推到未知情感值的单句的情感值并通过语境计算未知情感词的权重,构建基于语境的情感词典;步骤四:将二和三得情感词典融合;步骤六:利用新的情感词典重新迭代计算直到没有新的情感词。所述方法将语料划分六层层次体系,然后通过构字和语境方法计算权重,得到了更加准确、全面的情感词典;将得到的情感词典运用到情感分析任务中,可以提高情感分析的效率和准确率。
-
公开(公告)号:CN107247780A
公开(公告)日:2017-10-13
申请号:CN201710436963.X
申请日:2017-06-12
Applicant: 北京理工大学
CPC classification number: G06F17/30976 , G06F17/2785
Abstract: 本发明涉及一种基于知识本体的专利文献相似性度量方法,涉及面向专利文本的自然语言信息处理技术领域;该方法依据专利文献结构特点、位置特征和关键词特征提取核心技术方案;构建专利分类号主题词词间关系模型;根据分类号主题词词间关系模型构建领域词典并以之对核心技术方案分词和去停用词;主题词词间关系结合以TF‑IDF作为TextRank词初始权重提取关键词和权重;训练FastText模型,生成词向量;根据关键词、词权重和词向量,计算EMD距离,得出语义距离。对比现有技术,本发明解决了传统专利文献相似性度量方法未充分考虑专利文本结构特点,领域特点,词间关系特点及语义近似表述不一致导致的相似度低的问题。
-
公开(公告)号:CN105159879A
公开(公告)日:2015-12-16
申请号:CN201510531262.5
申请日:2015-08-26
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及一种网络个体或群体价值观自动判别方法,属于互联网信息挖掘与分析领域;包括:1)基于典型价值观三层树形结构搜集价值观新闻语料集;2)基于语料集及卡方统计方法构建典型价值观特征向量,并基于TF-IDF-IG方法计算其权重;3)基于步骤2)的方法确定社交网络个体的价值观特征向量,然后计算其与典型价值观特征向量的相似度,并进行价值观优先级评估;4)基于网络群体中每个个体的价值观优先级对其进行价值观分类,得到网络群体的价值观评估。对比现有技术,本发明基于网络大数据语料,对网络个体的价值观倾向进行定量评估以及对网络群体的价值观倾向进行定量评估,可用于网络舆论合理引导和管理控制,以及网络营销、人力资源管理等。
-
-