-
公开(公告)号:CN115034217A
公开(公告)日:2022-09-09
申请号:CN202210608239.1
申请日:2022-05-31
Applicant: 哈尔滨工业大学
IPC: G06F40/289 , G06F40/284 , G06F40/30 , G06K9/62 , G06F16/951 , G06F16/9035 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于关键信息指导面向微博文本的生成式自动文本摘要方法,首先需要将微博文本进行清洗,去除其中冗余信息和其他非关键信息;然后通过关键信息提取模块,得到微博文本中的关键词和关键短语;之后针对该任务设计专用的深度学习神经网络并使用公开数据集训练模型;最后将处理好的微博文本和关键信息作为输入,使用关键信息进行指导摘要生成,得到最终的摘要结果;本发明的目的是为了改进根据微博文本生成摘要的精度,进一步提高舆情分析系统在针对微博文本进行分析时内容检索的准确性,更为简要、准确地覆盖微博文本的主要信息,节省人工阅读全文的时间。
-
公开(公告)号:CN114970503A
公开(公告)日:2022-08-30
申请号:CN202210598799.3
申请日:2022-05-30
Applicant: 哈尔滨工业大学
IPC: G06F40/232 , G06F40/30 , G06K9/62 , G06N3/04
Abstract: 本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性,更好地解决字音或字形混淆导致的拼写错误,节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列,然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识,给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务,在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景,提高了校验文章的效率。
-
公开(公告)号:CN114330360A
公开(公告)日:2022-04-12
申请号:CN202111469526.0
申请日:2021-12-03
Applicant: 哈尔滨工业大学
IPC: G06F40/30 , G06F40/284 , G06F40/211 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种针对特定目标的立场检测方法,使用深度网络抽取句子的语义特征,并在立场检测时充分考虑目标特征,实现目标特征与句子特征的交互,模型使用稠密连接的BiLSTM网络和嵌套的LSTM网络抽取句子的语义特征,在捕捉句子深层的语义信息的同时,能够解决梯度消失问题和长期依赖问题;使用注意力机制获取特定目标对于句子各部分的重要度,从而得到融入特定目标信息的句子向量表示,帮助模型在进行立场检测时充分考虑给定的特定目标;通过实验验证本发明已达到较优的特定目标立场检测性能。
-
公开(公告)号:CN113326360A
公开(公告)日:2021-08-31
申请号:CN202110447496.7
申请日:2021-04-25
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F16/35 , G06F40/30
Abstract: 本发明提出一种小样本场景下的自然语言理解方法,所示方法提出预训练模型语言语义表示、意图识别和槽位识别、引入标签语义,使用线性空间映射方法拉远语义表示距离、建立门控网络并融合槽信息和意图信息以及运用抽象标签转移概率来达到在不同领域中也能快速学习理解的目的;本发明的方法能够在小样本的场景下更好的判断出问题的意图,并识别出问题的槽位,从而良好的解决任务型对话系统的自然语言理解任务下数据不足、数据标注成本和模型迁移代价过高的问题。
-
公开(公告)号:CN111414476A
公开(公告)日:2020-07-14
申请号:CN202010153639.9
申请日:2020-03-06
Applicant: 哈尔滨工业大学
Abstract: 本发明是一种基于多任务学习的属性级情感分析方法。本发明通过构建多个任务的学习模型,实现属性词抽取及其情感极性判断两个子任务的一站式完成,提高系统性能。通过构建属性词平均长度预测辅助任务降低模型属性词抽取的难度;通过构建情感词抽取和词语级情感极性分类辅助任务增强属性词情感极性判断能力;通过构建文档级文本的情感极性分类和领域分类辅助任务从较大规模语料中引入有效的语义信息;通过显式构建属性词抽取和属性词情感极性判别的特征交互单元使模型能学习到两个子任务之间的相关信息。通过实验验证本发明已达到较优的属性级情感分析性能。
-
公开(公告)号:CN108959566B
公开(公告)日:2019-09-10
申请号:CN201810724210.3
申请日:2018-07-04
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及一种基于Stacking集成学习的医疗文本去隐私方法和系统,属于计算机医疗软件技术领域。所述系统包括文本切分模块、基于转换规则自动获取模块、基于条件随机场学习器模块、基于神经网络学习器模块、PHI实体识别模块和Stacking集成学习模块;所述方法包括文本切分步骤、基于转换规则自动获取步骤、基于条件随机场学习器步骤、基于神经网络学习器步骤、PHI实体识别步骤和Stacking集成学习步骤。
-
公开(公告)号:CN106202054B
公开(公告)日:2018-12-14
申请号:CN201610590151.6
申请日:2016-07-25
Applicant: 哈尔滨工业大学
Abstract: 一种面向医疗领域基于深度学习的命名实体识别方法,本发明涉及命名实体识别方法。本发明是要解决CRF模型由于不考虑语义信息,在训练语料极度缺乏的情况下,标注结果中会出现大量的无意义的标注结果的问题,而提出的一种面向医疗领域基于深度学习的命名实体识别方法。该方法是通过一、得到了补充医疗领域语料的词表voc和词表voc对应的词向量vec;二、利用有标注语料中的训练语料进行长短期记忆单元网络LSTM的训练;三、根据二中的更新的神经网络参数θ进行标注结果的路径查找,得到有标注语料的标注结果;利用命名实体识别评估标准F值对有标注语料中的测试语料的标注结果进行评估等步骤实现的。本发明应用于命名实体识别领域。
-
公开(公告)号:CN108959566A
公开(公告)日:2018-12-07
申请号:CN201810724210.3
申请日:2018-07-04
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及一种基于Stacking集成学习的医疗文本去隐私方法和系统,属于计算机医疗软件技术领域。所述系统包括文本切分模块、基于转换规则自动获取模块、基于条件随机场学习器模块、基于神经网络学习器模块、PHI实体识别模块和Stacking集成学习模块;所述方法包括文本切分步骤、基于转换规则自动获取步骤、基于条件随机场学习器步骤、基于神经网络学习器步骤、PHI实体识别步骤和Stacking集成学习步骤。
-
公开(公告)号:CN107301226A
公开(公告)日:2017-10-27
申请号:CN201710469901.9
申请日:2017-06-20
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种问答系统中检索自模块的自动评价方法,属于模块自评价方法技术领域。通过针对检索出来的文档列表,根据其中每个位置上的文档与问题、与参考答案之间的相关程度(由各种特征表示),通过机器学习模型(具体是GBDT),准确估计出这个检索结果的MAP值,从而完成最终的评价过程。具有评价确定度高,评价方法简洁等特点。适用于各种问答系统中检索自模块的自评价。
-
公开(公告)号:CN106599933A
公开(公告)日:2017-04-26
申请号:CN201611223174.X
申请日:2016-12-26
Applicant: 哈尔滨工业大学
CPC classification number: G06K9/6262 , G06F16/35 , G06K9/6277
Abstract: 一种基于联合深度学习模型的文本情感分类方法,本发明涉及文本情感分类方法。本发明为了解决现有SVM等浅层分类方法,会带来维数灾难和数据稀疏等问题。步骤为:一:对文本数据中每一个词进行处理,采用word2vec工具对处理后的文本数据中每一个词进行训练,得到词向量字典;二:得到每个句子的矩阵M,LSTM层将矩阵M进行训练转化为固定维度的向量对输入层进行改进,生成d维h个具有上下文语义关系的词向量;三、采用CNN作为一个可训练的特征检测器从d维h个具有上下文语义关系的词向量中抽取特征;四:将抽取的特征依次连接,输出得到每个类别的概率,概率值最大的类别为所预测的类别。本发明用于自然语言处理领域。
-
-
-
-
-
-
-
-
-