一种应用于电网行业的项目申报文档的相似度检测方法

    公开(公告)号:CN116881738B

    公开(公告)日:2024-02-13

    申请号:CN202311145292.3

    申请日:2023-09-06

    Inventor: 陈酌灼 蔡毅

    Abstract: 本发明公开了一种应用于电网行业的项目申报文档的相似度检测方法。所述方法根据文档模板类型和格式,匹配出相同类型的文档,作为待比较文档,形成文档库;对目标文档和待比较文档进行预处理,从而形成多组待比较相似度的句子对;计算各句子对的TF‑IDF特征,并计算TF‑IDF特征间的向量相似度,从而得到对应的相似度分数;使用训练好的神经网络对各句子对进行相似度预测,得到相应的相似度分数预测结果;根据利用TF‑IDF特征和神经网络计算出的相似度分数,按照方法权重和文档结构权重进行综合加权评分,得到最终的相似度得分,按相似度从高到低筛选排序出相似文档。本发明能有效克服(56)对比文件Zhouhan Lin et al..A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING.arXiv:1703.03130v1 [cs.CL].2017,第1-15页.

    一种基于多任务联合的问题生成方法

    公开(公告)号:CN111488440B

    公开(公告)日:2024-02-13

    申请号:CN202010236154.6

    申请日:2020-03-30

    Abstract: 本发明公开了一种基于多任务联合的问题生成的方法,构建多任务联合的问题生成模型,问题生成模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型;所述方法包括步骤:利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要;根据给定文本建立高频词词汇表和低频词词汇表;通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示;将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态;通过Seq2Seq模型中的decode将得到的隐藏层状态解码为问题序列。本发明通过自动摘要的方法抽取出给定文本的中心句,再结合注意力机制、copy机制使得生成的问题更贴近文章中心。

    一种基于深度学习的信息图表序列检测方法及系统

    公开(公告)号:CN112507931B

    公开(公告)日:2023-12-22

    申请号:CN202011489925.9

    申请日:2020-12-16

    Inventor: 蔡毅 林捷

    Abstract: 本发明公开了一种基于深度学习的信息图表序列检测方法及系统,该方法步骤包括:获取信息图表以及信息图表中所有元素的元素类型和元素属性;根据信息图表中的元素,获取包含不同元素的截图;根据信息图表中的元素、包含不同元素的截图,训练识别信息图表中信息块的深度卷积网络;根据信息图表、信息图表中的元素、包含不同元素的截图和训练后的深度卷积网络,确定待识别信息图表中的信息块;根据待识别信息图表中的信息块识别结果,确定待识别信息图表中的信息序列。本发明对于信息图表的信息序列识别具有较高的准确性和鲁棒性。

    基于关系路径的远程监督关系抽取方法、装置及介质

    公开(公告)号:CN113268985B

    公开(公告)日:2023-06-20

    申请号:CN202110451394.2

    申请日:2021-04-26

    Inventor: 蔡毅 刘诤

    Abstract: 本发明公开了一种基于关系路径的远程监督关系抽取方法、装置及介质,其中方法包括以下步骤:通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐,构建实体对句子集合,根据实体对的内容将句子划分为多个包;通过直接句子编码模块获取实体对的相应关系的预测概率;针对每个包对应的实体对的推理关系路径,通过关系路径编码模块获取关系路径推理出相应关系的预测概率;在联合学习模块中,结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。本发明采用了联合学习框架将直接句子的特征信息和关系路径的推理信息合理地结合起来,提高关系抽取的精准度,可广泛应用于自然语言处理领域。

    一种基于多层次注意力机制的多种人物关系抽取方法

    公开(公告)号:CN111125367B

    公开(公告)日:2023-05-23

    申请号:CN201911362557.9

    申请日:2019-12-26

    Inventor: 蔡毅 刘宸铄

    Abstract: 本发明公开了一种基于多层次注意力机制的多种人物关系抽取方法,包括步骤:对采集的文本进行预处理;采用远程监督技术对原始人物命名实体的对齐标注,得到包含实体的文本以及实体描述信息;对得到包含实体的文本进行中文词向量训练;构建包含两个级别的注意力机制双向长短时记忆网络,对构建的模型进行训练,得到用于多种人物关系抽取的多分类模型;输入预处理后的文本,得到文本关系抽取的结果。本发明解决了目前多种人物关系文本的关系抽取的部分不足之处,提升了多种人物关系文本的关系抽取实验结果。

    一种任务型对话系统中的语义理解方法

    公开(公告)号:CN111104498B

    公开(公告)日:2023-04-25

    申请号:CN201911270705.4

    申请日:2019-12-12

    Inventor: 蔡毅 孔俊生

    Abstract: 本发明公开了一种任务型对话系统中的语义理解方法,包括步骤:收集与特定任务相关的对话数据,标注出每句对话数据的领域、意图以及槽值;对收集的对话数据进行预处理,根据预处理后的数据对构建的多任务级联神经网络模型进行训练;根据模型训练获得的领域、意图以及槽值,计算多任务级联神经网络模型的损失函数,根据损失函数值多次迭代,获得最终的多任务级联神经网络模型;将待识别的对话数据进行预处理后输入到最终的模型中,识别对话数据中语句的领域、意图以及槽值。该发明解决了目前语义理解系统识别准确率低的问题,提高了任务型对话系统中自然语言理解三个子任务的识别准确率。

    一种基于概念信息和词权重的主题生成方法

    公开(公告)号:CN111460079B

    公开(公告)日:2023-03-28

    申请号:CN202010150731.X

    申请日:2020-03-06

    Inventor: 蔡毅 张华奎

    Abstract: 本发明公开了一种基于概念信息和词权重的主题生成方法,包括步骤:对于一个文本语料库,识别出文本语料库中每一篇文档中的实体;对于识别出的所有实体,在知识库中检索每个实体的概念信息;对语料库中的每一篇文档进行预处理;使用DCEP词权重方案对语料库中的每一篇文档进行处理,并构建成为新的语料库;将新的语料库输入到标准的LDA主题模型中,生成主题。本发明通过为主题模型引入基于概念信息的词权重方案,有利于主题模型生成更加连贯的主题。

    一种面向标准文档编写的模板推荐方法

    公开(公告)号:CN113378539B

    公开(公告)日:2023-02-14

    申请号:CN202110730159.9

    申请日:2021-06-29

    Inventor: 蔡毅 彭淇 郑昌萌

    Abstract: 本发明公开了一种面向标准文档编写的模板推荐方法,包括步骤:构建标准文档库,包括标准编号,各层标题以及对应标准内容;对用户输入的标准文档的标题进行字符级的精确匹配,返回匹配文档结果;对标题查询无结果的输入,采用分词算法对用户输入进行分词,匹配包含分词各结果的标准文档标题,返回匹配文档结果;对于分词查询无结果的输入,采用词嵌入模型对查询单词进行特征映射,并根据语义特征向量进行匹配查询最接近的标准文档标题,并返回匹配结果。本发明能够根据标准文档和标准用户的输入特性,有效的进行标准文档编写的模板推荐。

    一种基于自编码器的任务导向型词嵌入向量融合方法

    公开(公告)号:CN111563534B

    公开(公告)日:2023-02-14

    申请号:CN202010272357.0

    申请日:2020-04-09

    Inventor: 蔡毅 吴欣

    Abstract: 本发明公开了一种基于自编码器的任务导向型词嵌入向量融合方法,包括步骤:获取待融合的原始词嵌入向量;选定下游任务并计算出任务导向标签;对一个自编码器进行训练;获取融合后的元词嵌入向量;将元词嵌入向量经过解码器预测原始词嵌入向量和经过一个解码器预测任务导向标签,计算误差并进行反向传播训练;当遇到新词或者需要再训练时,通过训练好的编码器和融合操作即可得到新词的元词嵌入向量。本发明具有良好的特征筛选以及下游任务导向学习的能力,在重构原始词嵌入向量的基础上,提高了元词嵌入向量在下游任务的性能,可广泛应用于自然语言处理任务中的文本分类,命名实体识别等领域。

    基于图神经网络结合好奇心的个性化推荐方法、系统及介质

    公开(公告)号:CN115438256A

    公开(公告)日:2022-12-06

    申请号:CN202210990287.1

    申请日:2022-08-18

    Inventor: 钟华麟 许可 蔡毅

    Abstract: 本发明公开了一种基于图神经网络结合好奇心的个性化推荐方法、系统、计算机设备及存储介质,所述方法包括:获取用户与物品交互的数据集,利用隐语义模块,得到用户和物品的交互信息以及用户与物品的特征向量,将得到的数据分别输入图卷积模块和好奇心模块,分别得到物品针对特定用户的预测相关性得分以及预测好奇心得分;根据预测相关性得分以及预测好奇心得分,得到用户的个性化物品推荐列表;利用数据集对好奇心模型中的隐语义模块和图卷积模块进行训练,将用户和物品序号输入训练好的好奇心模型,得到用户的个性化物品推荐列表。本发明通过将好奇心与推荐系统深度融合,保证一定程度推荐准确性的前提下,有效提升了推荐结果的多样性。

Patent Agency Ranking