面向蒙医学领域的实体关系联合提取方法

    公开(公告)号:CN118643161A

    公开(公告)日:2024-09-13

    申请号:CN202410623099.4

    申请日:2024-05-20

    摘要: 本发明公开了一种面向蒙医学领域的实体关系联合提取方法,包括:构建并训练面向蒙医学领域知识的实体关系联合提取模型:搜索蒙医文本知识库,提取高阶异构图;利用关系图注意网络模型进行高阶异构图建模,提取高阶异构图的全局上下文的实体和关系的深入表示;基于压缩悬浮标记方法,将蒙医文本即训练样本的标记序列划分成不同的跨度,并通过预先训练的语言模型得到局部蒙医文本跨度的深度表示;对全局上下文的实体和关系的深入表示与局部蒙医文本跨度的深度表示进行融合后映射到实体类型空间,以端到端的模式对集体提取实体与关系的训练进行优化,得到面向蒙医学领域知识的实体关系联合提取模型,并利用该模型进行蒙医文本的实体关系联合提取。

    一种时序知识图谱嵌入表示方法
    2.
    发明公开

    公开(公告)号:CN117725265A

    公开(公告)日:2024-03-19

    申请号:CN202311702154.0

    申请日:2023-12-12

    申请人: 内蒙古大学

    摘要: 本发明公开了一种时序知识图谱嵌入表示方法,包括以下步骤:步骤S1、通过对数螺旋线来编码时序知识图谱中的一对实体之间的关系嵌入表示,将实体之间的关系映射到相应的对数螺旋线时间轴上,得到基于对数螺旋线的时序知识图谱嵌入模型;步骤S2、构建时序螺旋正则化器并将时序螺旋正则化器作为损失函数的附加项;步骤S3、采用将时序螺旋正则化器作为附加项的损失函数,对基于对数螺旋线的时序知识图谱嵌入模型进行训练;步骤S4、采用训练完成的基于对数螺旋线的时序知识图谱嵌入模型,进行时序知识图谱嵌入表示。具有相同时间的关系会被投影到相同的螺旋线,从而使得时序知识图谱嵌入模型能够有效区分时间信息。

    一种基于边卷积交互的表格结构识别方法

    公开(公告)号:CN116469119A

    公开(公告)日:2023-07-21

    申请号:CN202310389428.9

    申请日:2023-04-13

    申请人: 内蒙古大学

    摘要: 本发明公开了一种基于边卷积交互的表格结构识别方法,构建基于边卷积交互的表格结构识别模型:输入表格图像、表格的特征图、表格中的文本行内容信息和位置信息,得到文本中心位置并在特征图上对应处采样,将采样的图像特征和文本行位置信息拼接,得到包含文本位置的图像特征;以文本行作为顶点、文本行间的关系作为连边,将表格用网络图表示出来;基于边卷积计算每个顶点和与其距离最近的M个点的边特征,再将顶点和M个边特征进行交互聚合;基于每个顶点交互聚合后的特征向量,对顶点间的关系进行分类,得到表格中各文本行的关系;对基于边卷积交互的表格结构识别模型训练后,采用基于边卷积交互的表格结构识别模型进行表格结构的准确识别。

    字符级基于序列模型的蒙古文切词方法及其切词系统

    公开(公告)号:CN109325243B

    公开(公告)日:2022-11-22

    申请号:CN201811178809.8

    申请日:2018-10-22

    申请人: 内蒙古大学

    摘要: 本发明公开了一种字符级基于序列模型的蒙古文切词方法及其切词系统,将蒙古文文本转化成以空格间隔的字符序列,并将字符序列中的英文、数字、汉字以及符号替换成相应的标记;将包含蒙古文字符的字符序列输入至基于神经网络模型的蒙古文切词组件,得到切分后的字符序列;判定切分后的输出字符序列是否包含除连接符号外的非蒙古文字符,如果包含将输出字符序列与原词比较,将对应的标记替换成被其替代的非蒙古文字符并去掉序列中的空格;否则去掉序列中的空格,完成反预处理;以词干‑词缀‑词缀的形式输出切分后的蒙古文文本。本发明通过神经网络实现待切分蒙古文词的字符序列到切分后的字符序列的自动转换,降低人工成本。

    单词可以进行高准确率的转换。西里尔蒙古文到传统蒙古文转换方法

    公开(公告)号:CN103810161B

    公开(公告)日:2017-01-25

    申请号:CN201410058055.8

    申请日:2014-02-21

    申请人: 内蒙古大学

    IPC分类号: G06F17/28

    摘要: 本发明提供一种西里尔蒙古文到传统蒙古文转换方法,该方法包括以下步骤:首先,将西里尔蒙古文文本进行预处理,并将西里尔蒙古文划分为集内词和未登陆词;其次,将所述集内词采用基于规则转换方法进行转换,将所述未登陆词采用基于联合序列模型的转换方法进行转换;再次,将集内词和未登录词的转换结果合并在一起,然后对于西里尔蒙古文到传统蒙古文的一对多对应的单词将采用语言模型选择最后转换结果;最后完成转换。本发明可以将任意西里尔蒙古文文本转换成传统蒙古文文本,并且对未登录词和西里尔蒙古文到传统蒙古文的一对多对应

    西里尔蒙古文和传统蒙古文双文种知识图谱构建方法

    公开(公告)号:CN109271529A

    公开(公告)日:2019-01-25

    申请号:CN201811178790.7

    申请日:2018-10-10

    申请人: 内蒙古大学

    IPC分类号: G06F16/36 G06F16/35 G06F17/27

    摘要: 本发明公开了一种西里尔蒙古文和传统蒙古文双文种知识图谱构建方法,具体为:将开源知识图谱和蒙古文网页资源进行抓取和预处理;将预处理后的西里尔蒙古文文本转传统蒙古文文本;建立传统蒙古文知识图谱数据模式;传统蒙古文命名实体识别和消解;传统蒙古文事实抽取;传统蒙古文知识图谱集成;建立西里尔蒙古文和传统蒙古文双文种知识图谱。获得西里尔蒙古文和传统蒙古文双文种知识图谱,解决了现有技术中尚无公开的、具备一定规模且满足应用需求的蒙古文知识图谱,制约蒙古文智能信息处理相关研究和应用发展的问题。

    一种蒙古语大词汇量连续语音识别的方法

    公开(公告)号:CN105957518A

    公开(公告)日:2016-09-21

    申请号:CN201610440618.9

    申请日:2016-06-16

    申请人: 内蒙古大学

    IPC分类号: G10L15/02 G10L15/18

    CPC分类号: G10L15/02 G10L15/18

    摘要: 本发明公开了一种蒙古语大词汇量连续语音识别的方法,由预处理阶段、准备阶段、训练阶段、解码阶段及合成转换阶段组成;预处理阶段是对文本训练语料的切分,并建立发音词典;准备阶段是对输入的语音信号提取声学特征;训练阶段是利用整词发音词典训练声学模型、利用切分后的训练文本训练语言模型;解码阶段是利用声学模型、语言模型和发音词典,将输入的声学特征识别成文本信息;合成转换阶段是利用规则纠正解码过程中的格后缀错误并将词干与格后缀合并,最终输出由蒙古文单词组成的句子。解决了现有技术中语音识别系统无法包含大规模蒙古语单词,由单词量过大导致语音识别的时间过长,语音识别系统中语言模型数据稀疏的问题。

    基于JAVA的蒙古文显示方法
    10.
    发明授权

    公开(公告)号:CN102768655B

    公开(公告)日:2015-04-22

    申请号:CN201210091390.9

    申请日:2012-03-31

    申请人: 内蒙古大学

    IPC分类号: G06F17/21 G06T11/60

    摘要: 本发明公开了一种基于JAVA的蒙古文显示方法,用JAVA语言编写的一个能够提供接口来访问蒙古文OpenType字库的字体引擎。对外表现为输入符合国家标准的蒙古文字母编码串,输出对应的蒙古文变形显现字符图形。该字体引擎是一个相对独立的函数,函数格式为:Font.drawText(text,compatiblePath),text为输入的Unicode字符串,函数输出字形图形到compatiblePath。该函数可以应用在所有支持Java的环境中。本发明应用范围广,有利于蒙古文信息处理的研究与发展。