-
公开(公告)号:CN101908042B
公开(公告)日:2016-04-13
申请号:CN201010248198.7
申请日:2010-08-09
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 本发明是一种双语联合语义角色的标注方法,所述方法是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法,步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;步骤3:将所述初始候选论元进行合并,得到正式候选论元;步骤4:针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。在汉-英平行命题库(PropBank)上验证了本发明方法的有效性。
-
公开(公告)号:CN104915337A
公开(公告)日:2015-09-16
申请号:CN201510340623.8
申请日:2015-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于双语篇章结构信息的译文篇章完整性评估方法,包括以下步骤:步骤1:从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料;步骤2:利用步骤1生成的训练语料构建目标端篇章单元完整性模型;步骤3:将目标端篇章单元完整性模型融入对数线性翻译模型中,并采用适应性解码方式进行译文生成。本发明提出的方法借助了双语篇章结构信息,使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息,来进一步提高当前统计机器翻译的译文质量。
-
公开(公告)号:CN103020045A
公开(公告)日:2013-04-03
申请号:CN201210534093.7
申请日:2012-12-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。
-
公开(公告)号:CN101482860B
公开(公告)日:2010-12-01
申请号:CN200810055782.3
申请日:2008-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。
-
公开(公告)号:CN101482860A
公开(公告)日:2009-07-15
申请号:CN200810055782.3
申请日:2008-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明汉英短语翻译对自动抽取与过滤方法,是对原始汉、英双语句对提取划分语块和对候选短语进行过滤的特征信息;根据不同的特征信息确定划分语块锚点,将原始汉、英句对划分为多个单语语块;利用原始汉、英双语句对的词对齐信息在语块内进行候选短语的抽取;利用候选短语的出现频率的特征信息来对生成的候选短语过滤,生成需要的短语对。本发明采用遍历语块内的短语抽取来取代现有遍历整句进行抽取的方法,对于空词的无限制扩展尤其有用,从而有效的解决了目前短语抽取量过大对于存储空间的要求,并且有效的过滤掉了很多噪音短语。本发明能够直接根据当前句对的固定词对齐生成多组短语,从而在满足精度的前提下提高了短语对的召回率。
-
公开(公告)号:CN101295361A
公开(公告)日:2008-10-29
申请号:CN200710098690.9
申请日:2007-04-25
Applicant: 中国科学院自动化研究所
IPC: G06K9/62
Abstract: 本发明涉及模式识别领域,公开一种基于拒绝域的多生物特征认证融合方法,该方法和传统的多生物认证融合方法主要区别在于:传统的融合方法融合所有单个生物认证初始分类器分类结果,本发明将多生物特征匹配初始分类器生成多个组合分类器,训练每个组合分类器或初始分类器,设置每个组合分类器或初始分类器拒绝的匹配阈值,用于生成带拒绝域的分类器;把带拒绝域的分类器的分类结果用投票法进行融合。融合时,仅仅融合那些没有被带拒绝域分类器拒绝的结果。本发明的优势在于系统可以过滤掉分类器的错误分类结果给整个系统带来的噪音,从而大大提高了生物认证的正确率,为多生物认证的实用化提供了一种很好的融合算法。
-
公开(公告)号:CN1801140A
公开(公告)日:2006-07-12
申请号:CN200410101877.6
申请日:2004-12-30
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
Abstract: 本发明涉及计算机科学与技术领域,特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。方法步骤:a)语料的预处理;b)分别提取汉语部分的词表以及英语部分的词表;c)分别对汉语部分和英语部分进行语法的归纳;d)对提取出来的短语结构进行对齐;e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数;f)对对齐的结果进行后处理以获得所需要的机器翻译模板。装置包括:汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置。
-
公开(公告)号:CN1570921A
公开(公告)日:2005-01-26
申请号:CN03147549.3
申请日:2003-07-22
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 一种基于统计模型的口语解析方法,包括步骤:语义表示定义;进行统计解析模型参数的训练;解析句子。本发明的特点是具有较高的鲁棒性,能够较好的处理口语中存在的非规范语言现象。另外,采用统计解析方法,能够快速的实现解析系统在不同领域间的移植,这两个特点,使得这一技术能够很快的在不同领域实现产品化。
-
公开(公告)号:CN118942488A
公开(公告)日:2024-11-12
申请号:CN202411169109.8
申请日:2024-08-23
Applicant: 中国科学院自动化研究所
IPC: G10L25/63 , G10L25/03 , G10L25/30 , G06F18/25 , G06F16/332
Abstract: 本发明提供一种多模态情绪识别方法、装置、设备、存储介质及程序产品,应用于自然语言处理技术领域。该方法包括:获取语音数据和对应的文本数据;分别对所述语音数据和所述文本数据进行编码处理,得到每个模态数据的中间特征表示;确定所述中间特征表示中的情感属性信息,并根据所述情感属性信息确定空间模态表征;根据向量的置信度分数过滤所述空间模态表征中低置信度的模态表征,得到目标表征向量;对所述目标表征向量进行融合处理,并基于融合结果进行情绪识别。
-
公开(公告)号:CN112232084B
公开(公告)日:2024-11-12
申请号:CN202011102971.9
申请日:2020-10-15
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/126 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种神经语义编解码分析方法及系统,所述神经语义编解码分析方法包括:训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型;通过探针任务量化解析文本表示模型描述各类语言特征的能力,得到探针任务表现;根据探针任务表现,通过消融任务以调整文本表示模型;在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。本发明通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型,通过探针任务量化解析文本表示模型描述各类语言特征的能力;进一步通过消融任务确认文本表示模型的鲁棒性,并以此调整文本表示模型,从而可提高在执行分析任务时的准确率。
-
-
-
-
-
-
-
-
-