一种基于多任务联合的问题生成方法

    公开(公告)号:CN111488440A

    公开(公告)日:2020-08-04

    申请号:CN202010236154.6

    申请日:2020-03-30

    Abstract: 本发明公开了一种基于多任务联合的问题生成的方法,构建多任务联合的问题生成模型,问题生成模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型;所述方法包括步骤:利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要;根据给定文本建立高频词词汇表和低频词词汇表;通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示;将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态;通过Seq2Seq模型中的decode将得到的隐藏层状态解码为问题序列。本发明通过自动摘要的方法抽取出给定文本的中心句,再结合注意力机制、copy机制使得生成的问题更贴近文章中心。

    一种基于对抗迁移学习的无标注命名实体识别方法

    公开(公告)号:CN111460824A

    公开(公告)日:2020-07-28

    申请号:CN202010237531.8

    申请日:2020-03-30

    Inventor: 蔡毅 彭淇

    Abstract: 本发明公开了一种基于对抗迁移学习的无标注命名实体识别方法,构建无标注命名实体识别模型,包括步骤:输入源领域或者目标领域的文本,并映射为词嵌入向量;将词嵌入向量输入到双向长短期记忆网络中提取出特征向量;将特征向量输入到对抗判别器,将源领域和目标领域的数据映射到同一数据分布空间中;将特征向量输入到条件随机场中,计算输入文本所有可能的标签序列的概率,选择概率最大的标签序列作为最终的预测标签;通过联合训练命名实体识别任务和对抗训练任务,得到最佳的模型参数;输入目标领域的数据,通过CRF层输出预测标签。本发明通过对抗判别器可以将源领域和目标领域数据映射到同一分布的空间内,从而提高目标领域数据的实体预测效果。

    一种基于词缀感知的社交媒体命名实体识别方法

    公开(公告)号:CN111160031A

    公开(公告)日:2020-05-15

    申请号:CN201911289215.9

    申请日:2019-12-13

    Inventor: 蔡毅 吴志威

    Abstract: 本发明公开了一种基于词缀感知的社交媒体命名实体识别方法,包括步骤:采集已标注出命名实体的社交媒体数据集;捕捉词的嵌入表示、字符级别表示和词缀特征表示,并将词嵌入表示、字符级别表示和词缀特征表示进行融合,作为词的最终表示;将得到的词的最终表示输入到双向卷积神经网络以及条件随机场中,预测标签序列并计算损失值;根据得到的损失值,采用随机梯度下降算法对模型进行训练;将文本输入训练好的模型中,识别出文本中的命名实体。本发明丰富了词的语义表示、缓解了社交媒体数据中未登录词的问题,提高了命名实体识别的效果。

    一种个性化对话的回复生成方法

    公开(公告)号:CN111159368A

    公开(公告)日:2020-05-15

    申请号:CN201911270617.4

    申请日:2019-12-12

    Inventor: 蔡毅 黎伟钊

    Abstract: 本发明公开了一种个性化对话的回复生成方法,包括步骤:收集具有人物个性信息的对话语料数据;对收集的数据进行预处理;采用对话上下文以及预处理后的数据作为输入数据对模型进行训练;将对话上下文和人物个性信息输入训练后模型,生成新的回复。本发明通过人物个性信息和数据后处理得到一个有效的人机对话方法,同时考虑了对话中的两个人物个性并进行融合,再使用数据后处理对句子进行修整。本发明在保证回复语法通顺、逻辑连贯的前提下,生成能够体现人物个性的回复。

    一种基于多层次注意力机制的多种人物关系抽取方法

    公开(公告)号:CN111125367A

    公开(公告)日:2020-05-08

    申请号:CN201911362557.9

    申请日:2019-12-26

    Inventor: 蔡毅 刘宸铄

    Abstract: 本发明公开了一种基于多层次注意力机制的多种人物关系抽取方法,包括步骤:对采集的文本进行预处理;采用远程监督技术对原始人物命名实体的对齐标注,得到包含实体的文本以及实体描述信息;对得到包含实体的文本进行中文词向量训练;构建包含两个级别的注意力机制双向长短时记忆网络,对构建的模型进行训练,得到用于多种人物关系抽取的多分类模型;输入预处理后的文本,得到文本关系抽取的结果。本发明解决了目前多种人物关系文本的关系抽取的部分不足之处,提升了多种人物关系文本的关系抽取实验结果。

    基于决策树和SVM混合模型的中文句型分类方法

    公开(公告)号:CN107145514B

    公开(公告)日:2019-08-20

    申请号:CN201710211762.X

    申请日:2017-04-01

    Abstract: 本发明公开了一种基于决策树和SVM混合模型的中文句型分类方法,首先获取训练样本集;根据训练样本集中各类句型的训练样本构建得到特殊陈述句决策树、疑问句决策树和否定句决策树,并且将训练样本集中的各训练样本分别输入至特殊陈述句决策树、疑问句决策树和否定句决策树进行句型判定;提取出上述决策树均不能判定的训练样本,通过这些训练样本训练得到SVM分类器。首先将测试样本输入至特殊陈述句决策树、疑问句决策树和否定句决策树进行判定,在未得出判定结果的情况下输入至SVM分类器进行分类,本发明方法将决策树和SVM分类器相结合,能准确判断出大部分正常句子,又可以高效处理一部分难以归纳总结的句子,提升句型分类准确率。

    一种职位构图和自动聚类方法

    公开(公告)号:CN109829500A

    公开(公告)日:2019-05-31

    申请号:CN201910100896.3

    申请日:2019-01-31

    Abstract: 本发明公开了一种职位构图和自动聚类方法。此方法适用于大规模网络职位数据的分类。本发明首先预定义一套职位特征模板。然后从招聘网站中收集半结构化的职位样本数据,提取特征信息填充职位模板,并提取公司类型信息,同时利用网页链接信息构造职位网络。对职位网络采用随机游走采样得到样本路径,再利用语言模型训练节点的分布式表示。最后融合职位节点的分布式表示和结构化特征信息,采用K-means算法进行聚类。

    基于新闻的事件演化关系自动提取方法及其系统

    公开(公告)号:CN104915446B

    公开(公告)日:2019-01-29

    申请号:CN201510372236.2

    申请日:2015-06-29

    Abstract: 本发明公开了一种基于新闻的演化关系自动提取方法,包括:新闻信息预处理、新闻导语提取、新闻事件时间提取、事件提取、事件关键词提取、事件演化关系分析;本发明还公开了一种新闻的演化关系自动提取系统,包括:新闻信息预处理模块、新闻导语提取模块、新闻事件时间提取模块、事件提取模块、事件关键词提取模块、演化关系分析。本发明可以使得提取出来的事件演化关系图更加合理、事件之间的关系更加清晰;具有解决了目前新闻演化分析领域的部分不足之处,使演化分析达到更好的效果,方便用户了解整个新闻话题的发展脉络等优点。

    基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统

    公开(公告)号:CN103955489A

    公开(公告)日:2014-07-30

    申请号:CN201410150855.2

    申请日:2014-04-15

    Inventor: 蔡毅 蔡志威 王涛

    CPC classification number: G06F17/30705

    Abstract: 本发明公开了一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。算法主要包括对文本的预处理、用信息熵衡量特征的权重,基于信息熵的文档向量表示方法,采用索引及缓存技术的KNN分类算法,整个算法基于MapReduce计算框架的实现。本发明利用特征在训练集中的信息熵,有效地衡量文本中词对于分类的作用大小,并且算法基于MapReduce计算框架能利用大规模集群来高效地对进行海量短文本的分类处理。本发明提供了一个准确率高、运行效率高、扩展性强的海量短文本分类算法。

Patent Agency Ranking