-
公开(公告)号:CN109492214A
公开(公告)日:2019-03-19
申请号:CN201710813362.6
申请日:2017-09-11
申请人: 苏州大学 , 腾讯科技(深圳)有限公司
IPC分类号: G06F17/27
摘要: 本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;根据各词的所述预测上位词向量确定种子词的属性词。该方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。本发明还提供一种与上述属性词识别方法及装置对应的属性词的层次构建方法及装置,以及一种计算机设备及计算机存储介质。
-
公开(公告)号:CN109492214B
公开(公告)日:2023-09-19
申请号:CN201710813362.6
申请日:2017-09-11
申请人: 苏州大学 , 腾讯科技(深圳)有限公司
IPC分类号: G06F40/284
摘要: 本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;根据各词的所述预测上位词向量确定种子词的属性词。该方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。本发明还提供一种与上述属性词识别方法及装置对应的属性词的层次构建方法及装置,以及一种计算机设备及计算机存储介质。
-
公开(公告)号:CN111611802B
公开(公告)日:2021-08-31
申请号:CN202010437407.6
申请日:2020-05-21
申请人: 苏州大学
IPC分类号: G06F40/295 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种多领域实体识别方法。本专利中,我们主要做出了如下2个创新:1、针对目标领域无任何人工标注数据的跨领域场景,快速自动构建目标领域的弱标注数据。2、将局部标注学习应用到跨领域命名实体识别任务中。有益效果:在目标领域没有任何人工标注数据的场景下,有效改善源领域模型的领域自适应能力,在降低数据标注成本的同时,提高了目标领域的实体识别性能。
-
公开(公告)号:CN108647254B
公开(公告)日:2021-06-22
申请号:CN201810366793.7
申请日:2018-04-23
申请人: 苏州大学
IPC分类号: G06F16/31 , G06F40/284
摘要: 本发明涉及一种基于模式嵌入的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于模式嵌入的自动树库转化方法,确定词wi和词wj的模式;将词wi和词wj的模式变换为对应的模式嵌入向量;将源端树中词wi、词wj、最小公共祖先节点wa三者分别对应的依存关系标签分别变换为依存关系嵌入向量;将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树中词wi和词wj的结构信息的表示向量,循环神经网络的顶层输出分别与表示向量拼接起来,作为感知器MLP的输入;利用双仿射计算获得词wi和词wj的目标端依存弧分值;本发明充分利用源端句法树,刻画两种标注规范的对应规律,最终完成高质量树库转化。
-
公开(公告)号:CN112364132A
公开(公告)日:2021-02-12
申请号:CN202011264308.9
申请日:2020-11-12
申请人: 苏州大学
IPC分类号: G06F16/33 , G06F16/332 , G06F16/335 , G06F40/279 , G06N3/08
摘要: 本发明涉及一种基于依存句法的相似度计算模型和系统及搭建系统的方法,包括:问句语义编码,所述问句语义编码包括最短依存路径句法编码、基于句法树的表达、以及预训练词向量语义编码;问句对应的候选查询图的语义编码,用于将答案查询图经过预训练词向量语义编码得到查询图语义编码;将所述预训练词向量语义编码、最短依存路径句法编码以及基于句法树的表达进行拼接得到问句依存句法;对查询图语义编码与问句依存句法进行互注意力机制,进行信息交互,再通过相似度计算,得到语义相似度。本发明有利于提升系统的性能。
-
公开(公告)号:CN106126613A
公开(公告)日:2016-11-16
申请号:CN201610457062.4
申请日:2016-06-22
申请人: 苏州大学
CPC分类号: G06F16/335 , G06K9/6215
摘要: 本发明公开了一种跑题作文确定方法及装置。一种跑题作文确定方法,可以包括以下步骤:获得目标题目下的作文集合;根据作文集合中作文之间的文本相似度,确定作文集合的文档发散度;根据文档发散度,确定相似度阈值;针对作文集合中的每一篇作文,计算该作文与预先确定的目标题目的范文的文本相似度,如果该作文与范文的文本相似度小于相似度阈值,则确定该篇作文为跑题作文。应用本发明实施例所提供的技术方案,可以快速有效地确定出作文集合中的跑题作文,为作文自动评分系统提供有效参考,提高作文评分的准确率。
-
公开(公告)号:CN104715399A
公开(公告)日:2015-06-17
申请号:CN201510165907.8
申请日:2015-04-09
申请人: 苏州大学
IPC分类号: G06Q30/02
摘要: 本发明公开了一种评分预测方法与系统,获取历史评论数据,使用基于词向量的方法构建主题词分布表,根据主题词分布表计算指定的第一用户对第一物品的评论特征表示,同时获取历史评分数据,计算指定的第一用户对第一物品的修正平均分作为特征之一,与主题特征一起作为线性回归模型的特征,计算出各个特征的权重和误差偏置,针对需要预测的第二用户对第二物品的评分,首先计算出第二用户对第二物品的评论特征表示和修正平均分,结合主题权重和误差偏置获得第二用户对第二物品的评分。利用词向量方法构建主题词表,根据评论内容预测评分同时从用户角度以及物品角度进行考虑,并加之协同过滤算法得到组合推荐模型,使预测结果更加准确全面。
-
公开(公告)号:CN110334355A
公开(公告)日:2019-10-15
申请号:CN201910635878.5
申请日:2019-07-15
申请人: 苏州大学
摘要: 本申请公开了一种关系抽取方法,所述关系抽取方法包括确定目标句子包中每一句子的句子分布式向量和查询关系的关系分布式向量;其中,目标句子包中每一句子均包括第一实体和第二实体;根据所述句子分布式向量和所述关系分布式向量确定策略函数,并利用所述策略函数将所述目标句子包中的所有句子划分为正例和未标注实例;利用所述正例和未标注实例训练关系抽取模型,得到所述第一实体与所述第二实体的实体关系。本申请能够降低噪声数据的影响,提高实体关系抽取结果的准确率。本申请还公开了一种关系抽取系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。
-
公开(公告)号:CN109800298A
公开(公告)日:2019-05-24
申请号:CN201910085499.3
申请日:2019-01-29
申请人: 苏州大学
IPC分类号: G06F16/332 , G06F17/27
摘要: 本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测结果并据此调整模型参数,以完成训练。可见,该方法无需改变模型结构,只需在字的向量表示中增加相应的语料特征向量,并利用该向量表示对模型进行训练,不仅实现了扩充训练语料的目的,而且能够让模型学习不同分词规范之间的共性,从而达到提升单一分词规范下的分词性能的目的。此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应。
-
公开(公告)号:CN108647254A
公开(公告)日:2018-10-12
申请号:CN201810366793.7
申请日:2018-04-23
申请人: 苏州大学
摘要: 本发明涉及一种基于模式嵌入的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于模式嵌入的自动树库转化方法,确定词wi和词wj的模式;将词wi和词wj的模式变换为对应的模式嵌入向量;将源端树中词wi、词wj、最小公共祖先节点wa三者分别对应的依存关系标签分别变换为依存关系嵌入向量;将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树中词wi和词wj的结构信息的表示向量,循环神经网络的顶层输出分别与表示向量拼接起来,作为感知器MLP的输入;利用双仿射计算获得词wi和词wj的目标端依存弧分值;本发明充分利用源端句法树,刻画两种标注规范的对应规律,最终完成高质量树库转化。
-
-
-
-
-
-
-
-
-