-
公开(公告)号:CN108388651A
公开(公告)日:2018-08-10
申请号:CN201810168847.9
申请日:2018-02-28
申请人: 北京理工大学
摘要: 本发明涉及一种基于图核和卷积神经网络的文本分类方法,属于数据挖掘和信息检索技术领域。核心思想为:首先将文本预处理为图结构的表示方式,其中,图中的节点与文本中的词相对应;再基于图结构计算节点的权重,之后使用社区发现算法将图结构分解成多个子图,并使用图核技术将图映射到高维空间,得到图的张量表达,最后将该张量表达输入到卷积神经网络,对图特征进行深度挖掘,输出文本的类别。本发明与现有技术相比,能够充分利用文本的内部结构和上下文语义,使文本内容得以充分表达;使节点信息更加合理;有效解决了文本分类中复杂繁琐的处理过程。
-
公开(公告)号:CN106297296A
公开(公告)日:2017-01-04
申请号:CN201610890373.X
申请日:2016-10-12
申请人: 北京理工大学
IPC分类号: G08G1/01
CPC分类号: G08G1/0112 , G08G1/0129
摘要: 本发明涉及一种基于稀疏轨迹点数据的细粒度旅行时间分配方法,属于城市智能交通技术领域。本发明以细粒度的方式进行旅行时间分配,分析相邻交通信号间的延迟模式,再依据相邻路段之间的延迟依赖条件,对其状态转移概率进行建模,将一个交通信号周期内不同车辆等待红灯时间的差异区分开来,从而提高配时结果的精确度;针对细粒度旅行时间分配过程中,车辆在一个路段或一个子路段旅行时间及交通信号周期不容易直接得到的问题,提出了一个新隐马尔可夫模型,使得相邻路段间的延迟模式由路段间的状态转移概率决定,再用条件迭代模型来计算出隐马尔可夫模型的参数。本发明实现了细粒度旅行时间分配,从而有效提高了配时结果的精确度与正确性。
-
公开(公告)号:CN108388651B
公开(公告)日:2021-09-28
申请号:CN201810168847.9
申请日:2018-02-28
申请人: 北京理工大学
IPC分类号: G06F16/35 , G06F16/901 , G06F16/36 , G06F40/289
摘要: 本发明涉及一种基于图核和卷积神经网络的文本分类方法,属于数据挖掘和信息检索技术领域。核心思想为:首先将文本预处理为图结构的表示方式,其中,图中的节点与文本中的词相对应;再基于图结构计算节点的权重,之后使用社区发现算法将图结构分解成多个子图,并使用图核技术将图映射到高维空间,得到图的张量表达,最后将该张量表达输入到卷积神经网络,对图特征进行深度挖掘,输出文本的类别。本发明与现有技术相比,能够充分利用文本的内部结构和上下文语义,使文本内容得以充分表达;使节点信息更加合理;有效解决了文本分类中复杂繁琐的处理过程。
-
公开(公告)号:CN111428490B
公开(公告)日:2021-05-18
申请号:CN202010212088.9
申请日:2020-03-24
申请人: 北京理工大学
IPC分类号: G06F40/284 , G06F40/295 , G06F40/247 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种利用语言模型的指代消解弱监督学习方法,属于自然语言处理中的信息抽取技术领域。所述方法包括:步骤1:数据集的预处理;步骤2:先在少量标注的数据集上训练指代消解模型;步骤3:在大规模无标注数据集上基于多头自注意力机制训练语言模型;步骤4:在无标注和有标注的数据上进行基于指代消解模型输出的弱监督学习,引入对多头自注意力机制特殊设计的损失,将多头自注意力机制中的抽头划分为特殊抽头和普通抽头,分别计算不同的损失。所述方法使特殊抽头具有输出与指代消解模型相似分布概率的能力,提升了指代消解系统的准确度,得到的语言模型和指代消解模型能够扩展现有指代消解模型的使用领域,模型参数具有更好的可解释性。
-
公开(公告)号:CN111160009B
公开(公告)日:2020-12-08
申请号:CN201911398270.1
申请日:2019-12-30
申请人: 北京理工大学
IPC分类号: G06F40/211 , G06F40/289 , G06F40/295 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种基于树状网格记忆神经网络的序列特征提取方法,属于自然语言处理技术领域。先通过嵌入技术将句子中的每个字表示为字级别的嵌入向量;再针对每个文字区间通过递归树状神经网络提取该文字区间的记忆向量和特征向量;再针对句子中的每个位置,基于所有以该位置为结尾的文字区间,提取该位置的记忆向量和特征向量;所述特征向量提取凡是能够实现递归性的文本序列特征;最后将每个位置的特征向量拼接在一起。所述方法能更好地提取句子的上下文特征;能够基于自然语言的递归结构对特征进行筛选和融合,提取对于具体任务有用的特征;所述方法利用语言的内在递归结构,可以完成多种自然语言处理领域的序列标注形式任务。
-
公开(公告)号:CN118133965A
公开(公告)日:2024-06-04
申请号:CN202410093808.2
申请日:2024-01-23
申请人: 北京理工大学
摘要: 本发明涉及一种基于反馈强化学习融合归因的事件极性分析方法,属于强化学习和自然语言处理技术领域。本发明基于反馈强化学习,通过人类评估者提供的反馈来学习不同情境下的归因信息,将归因信息融合到事件极性分析任务中。本方法不仅仅关注于找出“正确”的答案,而是强调理解和解释事件背后的多维度信息。在事件极性分析的背景下,这意味着模型不仅能判断事件是否真实发生,而且能够理解事件发生的原因、背景和可能的影响,从而能够获取更佳的性能。
-
-
公开(公告)号:CN108280064B
公开(公告)日:2020-09-11
申请号:CN201810167568.0
申请日:2018-02-28
申请人: 北京理工大学
IPC分类号: G06F40/295 , G06F40/211 , G06F16/35
摘要: 本发明涉及分词、词性标注、实体识别及句法分析的处理方法,是一种联合处理分词、词性标注、实体识别和成分句法分析任务的方法,属于自然语言处理技术领域。核心思想如下:首先分步构建出联合模型;然后利用现有的实体数据和成分句法树数据构造出联合句法树数据;接着从联合句法树数据中提取出训练数据;再使用训练数据对联合模型进行训练,最后使用训练好的联合模型对待分析的中文语句进行分析,得到作为分析结果的联合句法树。该方法有效地避免了错误传播问题,并且是一种基于转移的分析方法,保证了本发明的执行速度。
-
公开(公告)号:CN111428490A
公开(公告)日:2020-07-17
申请号:CN202010212088.9
申请日:2020-03-24
申请人: 北京理工大学
IPC分类号: G06F40/284 , G06F40/295 , G06F40/247 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种利用语言模型的指代消解弱监督学习方法,属于自然语言处理中的信息抽取技术领域。所述方法包括:步骤1:数据集的预处理;步骤2:先在少量标注的数据集上训练指代消解模型;步骤3:在大规模无标注数据集上基于多头自注意力机制训练语言模型;步骤4:在无标注和有标注的数据上进行基于指代消解模型输出的弱监督学习,引入对多头自注意力机制特殊设计的损失,将多头自注意力机制中的抽头划分为特殊抽头和普通抽头,分别计算不同的损失。所述方法使特殊抽头具有输出与指代消解模型相似分布概率的能力,提升了指代消解系统的准确度,得到的语言模型和指代消解模型能够扩展现有指代消解模型的使用领域,模型参数具有更好的可解释性。
-
公开(公告)号:CN111160009A
公开(公告)日:2020-05-15
申请号:CN201911398270.1
申请日:2019-12-30
申请人: 北京理工大学
IPC分类号: G06F40/211 , G06F40/289 , G06F40/295 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种基于树状网格记忆神经网络的序列特征提取方法,属于自然语言处理技术领域。先通过嵌入技术将句子中的每个字表示为字级别的嵌入向量;再针对每个文字区间通过递归树状神经网络提取该文字区间的记忆向量和特征向量;再针对句子中的每个位置,基于所有以该位置为结尾的文字区间,提取该位置的记忆向量和特征向量;所述特征向量提取凡是能够实现递归性的文本序列特征;最后将每个位置的特征向量拼接在一起。所述方法能更好地提取句子的上下文特征;能够基于自然语言的递归结构对特征进行筛选和融合,提取对于具体任务有用的特征;所述方法利用语言的内在递归结构,可以完成多种自然语言处理领域的序列标注形式任务。
-
-
-
-
-
-
-
-
-