一种基于大模型与检索对比的小语种图片描述生成方法

    公开(公告)号:CN118823779A

    公开(公告)日:2024-10-22

    申请号:CN202410726500.7

    申请日:2024-06-06

    Abstract: 本发明涉及一种基于大语言模型与检索对比的小语种图片描述生成方法,属于图片和自然语言处理技术领域。首先构建大语种到小语种平行语料数据集,以及大语种和小语种图片描述对数据集。然后进行多语理解大语言模型训练。之后进行图像文本对齐,向量数据库检索生成提示。最后根据训练好的模型和生成的提示词生成描述。本方法直接使用大语言模型生成,无需经过翻译步骤,从而提高了生成效率。图片描述生成直接针对小语种展开,通过引入检索对比技术,进一步提升了生成质量和准确率。本方法使得小语种图片描述生成更为可行,为相关领域的研究和应用提供了有力的技术支持。

    一种面向视频内容的多模态检索方法

    公开(公告)号:CN114385859B

    公开(公告)日:2024-07-16

    申请号:CN202111631648.5

    申请日:2021-12-29

    Abstract: 本发明公开了一种面向视频内容的多模态检索方法,属于多媒体分析与处理技术领域。本方法面向视频内容,对视频数据和检索数据中的多模态特征进行提取和转化,将多模态特征转化为文本特征,然后通过对文本特征的检索实现对视频内容的检索与定位。本方法充分利用了视频内容中的多模态特征,并支持利用多模态数据进行检索,方便用户以多种方式进行针对视频内容的检索,使无标注情况下针对视频内容的检索更加准确全面。本方法极大方便了用户以多种形式在海量视频数据中快速寻找到自己感兴趣的内容,可以在海量无标注视频中找到用户所感兴趣的内容,节约了人工观看视频进行筛选的时间,可用于视频敏感内容筛选、目标人锁定等,实现数据的高效利用。

    一种基于可解释模型的文本持续分类方法

    公开(公告)号:CN116775869A

    公开(公告)日:2023-09-19

    申请号:CN202310689085.8

    申请日:2023-06-12

    Abstract: 本发明涉及一种基于可解释模型的文本持续分类方法,包括文本分类、可持续学习、可解释学习、经验回放等多方面技术,属于自然处理技术领域。本发明包括两大部分。第一部分是自解释的文本分类模型,输入样本,输出对应样本的预测类别和可解释词;第二部分为特征池,用以存储自解释模型输出的可解释特征,作为回放的旧任务特征。这里自解释的文本分类模型具体为融合短语结构知识的自解释模型,包含三层,第一层输入层,通过编码器得到文本表示,并进一步得到输入样本对应的短语结构知识。第二层为短语结构知识进一步融合的解释层,第三层为线性层,将解释层的输出映射到类别向量空间,得到预测类别标签和样本的解释。

    一种基于知识图谱和上下文语境的中文语义消歧方法

    公开(公告)号:CN113065002B

    公开(公告)日:2022-10-14

    申请号:CN202110417960.8

    申请日:2021-04-19

    Abstract: 本发明涉及一种基于知识图谱和上下文语境的中文语义消歧方法,属于自然语言处理技术领域。本发明通过构建消歧知识图谱和基于上下文语境的语义消歧,可以在没有显式语义标注的由原句和完成消歧修改后的结果组成的获取数据集中抽取歧义词实体和消歧词实体以及它们之间的关系,同时将上下文语境作为消歧词实体的属性,从而将消歧知识沉淀于知识图谱,赋能语义消歧工作。本发明可以在新的待消歧文本中准确地发现已登录的歧义词。本发明实现了上下文语境的向量表示和基于向量的相似度计算,使得利用本发明的软件可以更精准地感知歧义词所处的上下文语境。

    一种基于图表示学习的知识图谱跨语言对齐方法

    公开(公告)号:CN114443855A

    公开(公告)日:2022-05-06

    申请号:CN202210020693.5

    申请日:2022-01-10

    Abstract: 本发明涉及一种基于图表示学习的知识图谱跨语言对齐方法,属于自然语言处理技术领域。在知识图谱构建阶段,通过爬取网站数据作为来源。然后,过滤筛选多语言实体并抽取其结构化数据组成三元组,构建知识图谱。在对齐阶段,通过图表示学习,将不同来源的知识图谱生成对应的嵌入矩阵,在图嵌入基础上,依靠已对齐实体,将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐。本方法充分利用了知识图谱结构信息,通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中,并根据实体在联合语义空间中的距离进行对齐,保证了融合后的数据更准确全面,提高了在跨语言领域进行快速分析和智能搜索的效率。

    一种基于大模型多阶段数据增强的跨语言简讯生成方法

    公开(公告)号:CN118821796A

    公开(公告)日:2024-10-22

    申请号:CN202410726533.1

    申请日:2024-06-06

    Abstract: 本发明涉及一种基于大模型多阶段数据增强的跨语言简讯生成方法,属于计算机自然语言处理技术领域。本方法通过指令微调技术,利用英文原文和中文简讯之间的对应关系,生成适合大模型学习的指令微调语料。本发明将大模型应用于跨语言科技简讯生成领域,以及结合多阶段数据增强框架,提高了模型在特定任务上的表现,同时保持了模型的泛化能力,解决了传统跨语言文本摘要任务样本不足等问题,避免了传统跨语言任务流水线方法中的误差传播,能够更快地进行推理。本方法通过串行结构学习多个相关任务,并通过辅助任务数据进行增强,从共享的知识中受益,提高了性能,增强泛化能力,有效应对数据稀缺性。

    一种基于知识驱动的网页表格抽取与结构化处理方法

    公开(公告)号:CN116628301A

    公开(公告)日:2023-08-22

    申请号:CN202310420021.8

    申请日:2023-04-19

    Abstract: 本发明涉及一种基于知识驱动的网页表格抽取与结构化处理方法,属于计算机科学中的信息处理技术领域。该方法包括:解析Web网页内容数据,判断是否存在表格;若存在表格,提取所有表格的内容并存储;获取表格后,对每一行数据和每一列数据进行解析,判断是实体还是属性;对表格项内容进行匹配,得到每一个表项对应的标签;根据表项标签,获取行列标签;计算行列置信度,判断表头实体属性;以及生成包括实体、属性、以及属性值的结构化三元组。本发明通过融合规则与自然语言处理技术,基于知识库对网页表格数据进行抽取解析,使得结构化后的信息更加清晰、准确、和实用,为各种装备性能参数的构建提供技术支持,具有很大的实用价值。

    一种多模态信息选择性融合的中文命名实体识别方法

    公开(公告)号:CN115374784A

    公开(公告)日:2022-11-22

    申请号:CN202210810750.X

    申请日:2022-07-11

    Abstract: 本发明涉及一种多模态信息选择性融合的中文命名实体识别方法,属于自然语言处理技术领域。本发明有效解决了如何将字音和字形这两个重要信息有效融入命名实体识别中,通过在命名实体识别的输入中,加入携带语义信息的字符的拼音与偏旁部首序列,赋予了向量更强的语义信息。采用选择性融合,能够动态地控制字音和字形特征所占的权重,有效提升了命名实体识别性能。本发明能够为机器翻译、问答系统和阅读理解等自然语言处理任务提供有效支持。

    一种基于多句压缩的无监督科技情报摘要自动生成方法

    公开(公告)号:CN114706972A

    公开(公告)日:2022-07-05

    申请号:CN202210275509.1

    申请日:2022-03-21

    Abstract: 本发明涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成技术领域。针对科技情报领域的多文档文本生成,首先基于LDA主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。

Patent Agency Ranking