一种跨领域细粒度情感分析方法、装置及存储介质

    公开(公告)号:CN115221272B

    公开(公告)日:2025-05-16

    申请号:CN202210660427.9

    申请日:2022-06-13

    Inventor: 蔡毅 曾雨诗

    Abstract: 本发明公开了一种跨领域细粒度情感分析方法、装置及存储介质,其中方法包括:构建目标领域的细粒度情感分析模型;将无标注样本输入BERT编码器预训练语言模型获得每个单词的语法知识向量表示;基于图卷积网络,通过卷积相邻节点的特征来捕获常识关系结构特征并映射到与BERT编码器相同的单词层级维度向量空间中从而获得常识知识向量表示;拼接语法知识向量表示和常识知识向量表示作为单词的最终特征表示;优化模型的参数。本发明通过结合语法知识和常识关系知识来缩小同一分布空间内的不同领域的领域差异,对资源较少的目标领域具有较强的适应性,提高目标领域的方面抽取以及情感分析的预测效果。本发明可广泛应用于自然语言处理技术领域。

    一种基于分类效用的开集分类方法

    公开(公告)号:CN111191033B

    公开(公告)日:2023-04-25

    申请号:CN201911352812.1

    申请日:2019-12-25

    Inventor: 蔡毅 李泽婷

    Abstract: 本发明公开了一种基于分类效用的开集分类方法,包括步骤:输入数据集,并对数据集进行预处理;采用特征提取器将数据转换为特征;采用训练集的特征训练一个可增量学习少样本分类器;对于一条新数据,对其进行预处理后采用特征提取器提取特征;将新数据的特征输入到分类器中,寻找已知类别中分类分数最高的一个类别,并计算分类效用;将新数据单独作为一个类别,采用新数据的特征计算其分类效用;比较已知类别与新类别情况下的分类效用大小,更新分类器;重复提取特征并计算分类效用的步骤,增加分类器处理的类别数据。本发明解决了开集分类中的未知类别数据识别和新类别的引入问题,并结合增量学习来学习新类别,增强分类器。

    一种基于标准知识图谱的标准文档冲突检测方法及系统

    公开(公告)号:CN113449118B

    公开(公告)日:2022-09-20

    申请号:CN202110732648.8

    申请日:2021-06-29

    Inventor: 蔡毅 曹晋 吴欣

    Abstract: 本发明公开了一种基于标准知识图谱的标准文档冲突检测方法及系统,所述方法首先对标准文档的非结构化文本内容进行结构化抽取,形成标准知识图谱。基于该标准知识图谱,通过文本相似度匹配,多实体列表匹配等技术找出若干标准知识图谱间的冲突实体,实现标准文档间的冲突检测。所述方法具有良好的标准文档冲突检测能力,在给定若干标准文档下,能够对各个标准文档中的知识进行结构化,形成若干标准知识图谱,并通过标准知识图谱实现标准文档冲突检测,可广泛应用于标准编写领域。

    基于分布式光纤传感器和深度学习的管道安全监测方法

    公开(公告)号:CN114857504A

    公开(公告)日:2022-08-05

    申请号:CN202210628035.4

    申请日:2022-06-06

    Inventor: 游东东 杨汕 蔡毅

    Abstract: 本发明公开了一种基于分布式光纤传感器和深度学习的管道安全监测方法,包括以下步骤:S1、通过分布式光纤信号采集装置采集管道各个位置的光纤振动信号;S2、对采集的光纤振动信号进行数据清洗、小波包降噪和归一化处理,将处理后的数据划分为训练集、测试集和预测集;S3、构建卷积神经网络模型,输入训练集和测试集数据进行学习训练,输入预测集数据评估模型的性能,再以卷积神经网络为特征提取器,以支持向量机为分类选择器,建立卷积神经网络与支持向量机联合模型;S4、将采集的实时数据输入卷积神经网络与支持向量机联合模型进行识别,根据输出的数字标签进行类型分类,实现对管道的安全监测。本发明精准的监测管道安全,提升了识别的准确率。

    一种实体关系联合抽取方法及系统

    公开(公告)号:CN111160008B

    公开(公告)日:2022-03-25

    申请号:CN201911308937.4

    申请日:2019-12-18

    Inventor: 蔡毅 陈峰

    Abstract: 本发明公开了一种实体关系联合抽取方法,包括步骤:对输入句子进行数据预处理;将输入句子中的每个词映射成对应的词向量;将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;采用训练后的LSTM‑GCN模型进行实体抽取和关系抽取。本发明通过LSTM和GCN可以同时捕捉到输入句子的顺序信息和区域信息,更好地表示每个词,提升了实体抽取和关系抽取的性能,具有一定的实用性。

    一种面向标准文档编写的模板推荐方法

    公开(公告)号:CN113378539A

    公开(公告)日:2021-09-10

    申请号:CN202110730159.9

    申请日:2021-06-29

    Inventor: 蔡毅 彭淇 郑昌萌

    Abstract: 本发明公开了一种面向标准文档编写的模板推荐方法,包括步骤:构建标准文档库,包括标准编号,各层标题以及对应标准内容;对用户输入的标准文档的标题进行字符级的精确匹配,返回匹配文档结果;对标题查询无结果的输入,采用分词算法对用户输入进行分词,匹配包含分词各结果的标准文档标题,返回匹配文档结果;对于分词查询无结果的输入,采用词嵌入模型对查询单词进行特征映射,并根据语义特征向量进行匹配查询最接近的标准文档标题,并返回匹配结果。本发明能够根据标准文档和标准用户的输入特性,有效的进行标准文档编写的模板推荐。

    一种基于主题聚类的自适应对话生成系统

    公开(公告)号:CN109308316B

    公开(公告)日:2021-05-14

    申请号:CN201810823424.6

    申请日:2018-07-25

    Inventor: 蔡毅 任达 闵华清

    Abstract: 本发明公开了基于主题聚类的自适应对话生成系统,包括对话数据模块、向量化模块、聚类模块、Seq2Seq模块;对话数据模块,用于在训练之前构建对话数据集;向量化模块,用于在聚类之前将对话数据集向量化并作为聚类模型的输入,成为聚类的依据;聚类模块,用于将向量化后的对话数据集聚类为多个簇;Seq2Seq模块,用于构建Seq2Seq模型,对聚类模块得到的簇中的对话数据集生成对应的回复。本发明可以将对话数据按照主题进行聚类,针对不同类别的对话数据使用特定的Seq2Seq模型进行训练。在经典的Seq2Seq模型下,往往会产生无意义的回复。而通过本发明提出的模型可以让对话系统生成更符合主题、更有意义的回复。这样的回复能让用户更愿意去和对话系统进行交流,提升用户体验度。

    一种基于自编码器的任务导向型词嵌入向量融合方法

    公开(公告)号:CN111563534A

    公开(公告)日:2020-08-21

    申请号:CN202010272357.0

    申请日:2020-04-09

    Inventor: 蔡毅 吴欣

    Abstract: 本发明公开了一种基于自编码器的任务导向型词嵌入向量融合方法,包括步骤:获取待融合的原始词嵌入向量;选定下游任务并计算出任务导向标签;对一个自编码器进行训练;获取融合后的元词嵌入向量;将元词嵌入向量经过解码器预测原始词嵌入向量和经过一个解码器预测任务导向标签,计算误差并进行反向传播训练;当遇到新词或者需要再训练时,通过训练好的编码器和融合操作即可得到新词的元词嵌入向量。本发明具有良好的特征筛选以及下游任务导向学习的能力,在重构原始词嵌入向量的基础上,提高了元词嵌入向量在下游任务的性能,可广泛应用于自然语言处理任务中的文本分类,命名实体识别等领域。

    一种基于BERT与SemiCRF的中文命名实体识别方法

    公开(公告)号:CN111563383A

    公开(公告)日:2020-08-21

    申请号:CN202010272320.8

    申请日:2020-04-09

    Inventor: 蔡毅 郑煜佳

    Abstract: 本发明公开了一种基于BERT与SemiCRF的中文命名实体识别方法,构建命名实体识别模型,所述方法包括步骤:获取预训练好的BERT模型;对命名实体识别的原始语料数据进行预处理,构建命名实体识别的训练集;将构建的命名实体识别的训练集数据输入到预训练好的BERT语言模型;将BERT语言模型的输出依次输入到双向LSTM神经网络以及CRF与SemiCRF联合模块中,对双向LSTM神经网络及联合模块进行多次迭代训练;使用训练完成得到的完整命名实体识别模型,对中文文本进行命名实体识别。本发明解决了传统的word2vec无法区分多义词的问题,并通过引入的基于SemiCRF的方法,将传统的CRF方法往往会忽略掉的词级别信息与字级别的信息结合起来,在一定程度上提高了中文命名实体识别的效果。

    一种实体关系联合抽取方法及系统

    公开(公告)号:CN111160008A

    公开(公告)日:2020-05-15

    申请号:CN201911308937.4

    申请日:2019-12-18

    Inventor: 蔡毅 陈峰

    Abstract: 本发明公开了一种实体关系联合抽取方法,包括步骤:对输入句子进行数据预处理;将输入句子中的每个词映射成对应的词向量;将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。本发明通过LSTM和GCN可以同时捕捉到输入句子的顺序信息和区域信息,更好地表示每个词,提升了实体抽取和关系抽取的性能,具有一定的实用性。

Patent Agency Ranking