-
公开(公告)号:CN117807514A
公开(公告)日:2024-04-02
申请号:CN202311847657.7
申请日:2023-12-28
申请人: 中国南方航空股份有限公司 , 哈尔滨工业大学
IPC分类号: G06F18/2411 , G06F18/213 , G06F18/214 , G06F40/289 , G06F40/216 , G06Q10/0635 , G06Q50/40
摘要: 本发明公开了一种航行通告风险识别模型构建方法、装置、设备及存储介质,通过对获取的航行通告历史数据标注风险类别数据,构建风险语料库;将所述风险语料库中的数据分为训练集和测试集;对所述训练集和所述测试集中的数据进行分词以及去除停用词,得到航行通告词列表数据;对所述航行通告词列表数据进行特征提取,得到特征表示;采用预先基于自然语言处理的支持向量机构建的识别模型对特征表示进行全监督训练,将训练后的最优模型作为风险识别模型输出。本申请构建的风险识别模型能够提高航行通告风险识别的效率和精度。
-
公开(公告)号:CN117422527A
公开(公告)日:2024-01-19
申请号:CN202311526419.6
申请日:2023-11-15
申请人: 哈尔滨工业大学
IPC分类号: G06Q30/0601 , G06F16/9536 , G06F16/9535
摘要: 本发明公开了一种基于用户偏好感知的全新商品冷启动方法,包括:获取用户协同特征、商品协同特征和商品内容特征;基于用户协同特征和商品协同特征,建立用户与商品的关系模型;基于商品协同特征和商品内容特征,将同一商品的内容特征与协同特征进行对齐,获取商品层级特征对齐模型;将同一用户购买记录中除目标商品外的所有商品的协同特征进行聚合,获取用户偏好;将用户偏好与商品内容特征进行对齐,获取群组层级特征对齐模型;将用户与商品的关系模型、商品层级特征对齐模型、群组层级特征对齐模型进行联合损失优化,获取联合损失模型,并将原有商品和全新商品分别通过协同特征和内容特征进行推荐。本发明能够更好的解决全新商品冷启动问题。
-
公开(公告)号:CN116757195A
公开(公告)日:2023-09-15
申请号:CN202310746692.3
申请日:2023-06-25
申请人: 哈尔滨工业大学
IPC分类号: G06F40/284 , G06F40/30 , G06F40/216 , G06N20/00
摘要: 本发明公开了一种基于提示学习的隐性情感识别方法,包括以下步骤:获取情感文本进行主题识别,基于识别的主题,选择种子词对应的母类别;基于种子词对应的母类别,采用未标记评论的聚类和余弦相似度对所述种子词继续进行类别检测,获得所述种子词对应的子类别;构建提示模板,将所述种子词对应的子类别嵌入到所述提示模板中并进行训练,将训练后的提示模板与预训练语言模型相结合,识别出对应的隐性情感。本发明构建的提示模板相较于手工构建的模板可以更加匹配预训练语言模型,通过让下游任务主动适应大型预训练语言模型的方式提升学习效率。
-
公开(公告)号:CN116501890A
公开(公告)日:2023-07-28
申请号:CN202310486585.1
申请日:2023-04-28
申请人: 哈尔滨工业大学
IPC分类号: G06F16/36 , G06N3/0464
摘要: 本发明提供一种知识图谱嵌入向量确定方法、装置、电子设备及存储介质,涉及知识图谱技术领域,该方法包括:根据图卷积神经网络,确定第一属性节点知识图谱中属性节点的属性嵌入向量和属性节点关系嵌入向量、确定第一实体节点知识图谱的实体节点的实体嵌入向量和实体节点关系嵌入向量;根据属性节点关系嵌入向量,确定各个属性节点的第一嵌入向量;根据预设关系因子,确定第一实体节点关系嵌入向量;根据第一嵌入向量和第一实体节点关系嵌入向量,确定第二实体节点知识图谱;根据第二实体节点知识图谱中第一实体节点关系嵌入向量,确定各个实体节点的第二嵌入向量;根据第二嵌入向量和第二实体节点关系嵌入向量,确定各个实体节点的目标嵌入向量。
-
公开(公告)号:CN114547232A
公开(公告)日:2022-05-27
申请号:CN202111406140.5
申请日:2021-11-24
IPC分类号: G06F16/33 , G06F40/279 , G06K9/62
摘要: 本发明提供了一种低标注成本的嵌套实体识别方法及系统,该方法包括:获取训练文本,对所述训练文本中的实体进行预标注,获得标注文本;从所述标注文本中提取正样本;对所述标注文本进行负采样,获得负样本集合,将所有所述正样本与至少一个负样本作为训练样本集,其中,所述负样本的类别标注为非实体类别;基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码,向所述语义编码中添加相对位置信息获得样本编码;将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型。保证在减少人工标注成本的前提下获得准确率高、鲁棒性好的预测模型。
-
公开(公告)号:CN101995963B
公开(公告)日:2012-07-04
申请号:CN201010551084.X
申请日:2010-11-19
申请人: 哈尔滨工业大学
IPC分类号: G06F3/023
摘要: 词汇自适应中文输入方法,本发明涉及一种计算机、手机、或者掌上电子产品等的词汇自适应的中文输入方法。它降低输入法的背景噪音,减少系统开销,实现个性化输入。它用于汉字输入。它包括下述步骤:输入汉语拼音字符串;进行音节切分;根据本地的通用词库中词的状态和已经加载到本地的领域专业词库的状态对音节串进行汉语语句转换;输出汉字字符串;搜索位于服务器端的领域专业词库并判断已输入汉语语句中是否包含位于服务器端的领域词库集中的词汇;如果存在这样的词汇,则将包含该词汇的领域专业词库加载到本地;根据选择确定的汉语语句输入,对位于本地的通用词库和已经加载到本地的领域专业词库中的词进行词汇状态调整。
-
公开(公告)号:CN102043910A
公开(公告)日:2011-05-04
申请号:CN201010600321.7
申请日:2010-12-22
申请人: 哈尔滨工业大学
摘要: 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法,涉及一种蛋白质远程同源性检测和折叠识别方法。本发明为了解决现有的蛋白质远程同源性检测和折叠识别方法中,二进制谱无法找到最优阈值,无法区分氨基酸出现频率的差别的问题。具体步骤:一、运行PSI-BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数;二、生成频率谱;三、将频率谱转化为Top-n-gram;四、获得测试蛋白质序列对应的潜在语义表达向量;五、将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,得到预测结果。应用于蛋白质同源性检测和折叠识别领域。
-
公开(公告)号:CN117422526B
公开(公告)日:2024-07-26
申请号:CN202311518835.1
申请日:2023-11-15
申请人: 哈尔滨工业大学
IPC分类号: G06Q30/0601 , G06F16/9535 , G06N3/0895
摘要: 本发明公开了一种基于提示的用户跨域冷启动方法,包括:获取用户特有表征、用户通用表征和商品表征;通过用户特有表征和商品表征,获取场景提示向量;根据场景提示向量和用户通用表征,获取目标场景的特有表征,完成基于提示的用户跨域冷启动。本发明通过提出的场景提示生成方法,通过最大化目标场景的提示与目标场景中所有用户与商品之间的互信息的方式,对每个场景的特征进行全面捕捉;本发明中的基于场景提示的目标场景用户表征生成方法,通过考虑不同场景之间的关系以及每个场景的特征,在仅仅知道用户通用表征的情况下,依然可以实现在不同场景中对同一用户进行精准个性化推荐的效果,进而解决用户跨域冷启动问题。
-
公开(公告)号:CN116757195B
公开(公告)日:2024-06-14
申请号:CN202310746692.3
申请日:2023-06-25
申请人: 哈尔滨工业大学
IPC分类号: G06F40/284 , G06F40/30 , G06F40/216 , G06N20/00
摘要: 本发明公开了一种基于提示学习的隐性情感识别方法,包括以下步骤:获取情感文本进行主题识别,基于识别的主题,选择种子词对应的母类别;基于种子词对应的母类别,采用未标记评论的聚类和余弦相似度对所述种子词继续进行类别检测,获得所述种子词对应的子类别;构建提示模板,将所述种子词对应的子类别嵌入到所述提示模板中并进行训练,将训练后的提示模板与预训练语言模型相结合,识别出对应的隐性情感。本发明构建的提示模板相较于手工构建的模板可以更加匹配预训练语言模型,通过让下游任务主动适应大型预训练语言模型的方式提升学习效率。
-
公开(公告)号:CN116738984B
公开(公告)日:2024-03-01
申请号:CN202310748270.X
申请日:2023-06-25
申请人: 哈尔滨工业大学
IPC分类号: G06F40/284 , G06F40/117 , G06F40/186 , G06N20/00
摘要: 本发明公开了一种基于提示学习的自动化数据标注方法,包括:获取有标注数据集和无标注数据集;对所述有标注数据集的实体信息进行提取,获取实体词;基于所述实体词对所述无标注数据集进行筛选,获取筛选后的无标注数据集;构建提示模板组,基于预训练语言模型利用所述提示模板组对所述筛选后的无标注数据集进行测试,获取正向/负向数据;基于所述提示模板组将所述有标注数据集的中性情感数据输入所述预训练语言模型,获取填充完整的提示模板;基于所述填充完整的提示模板和所述正向/负向情感数据,构建完整的扩充数据集,实现基于提示学习的自动化数据标注。
-
-
-
-
-
-
-
-
-