文本分类方法、模型训练方法、相关装置及电子设备

    公开(公告)号:CN115658903B

    公开(公告)日:2023-09-05

    申请号:CN202211357036.6

    申请日:2022-11-01

    Abstract: 本公开提供了一种文本分类方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及智能搜索、深度学习技术领域。具体实现方案为:获取目标场景下的第一文本,以及获取所述目标场景下的第一数据集,所述第一数据集包括M个类别下的K个第二文本,每个类别下对应至少一个所述第二文本;对所述第一文本进行特征编码,得到第一特征;以及分别对所述K个第二文本进行特征编码,得到K个第二特征;分别确定所述第一特征和所述K个第二特征之间的相似度,得到所述M个类别对应的M个第一相似度;基于所述M个第一相似度,确定所述第一文本在所述目标场景下所属的目标类别。

    文本表示方法、装置、设备和存储介质

    公开(公告)号:CN110196981B

    公开(公告)日:2023-07-25

    申请号:CN201910504977.X

    申请日:2019-06-11

    Abstract: 本发明实施例提出一种文本表示方法、装置、设备和存储介质,其中的方法包括获取目标文本对应的多个词向量;从多个词向量中,获取目标文本的全局特征;根据全局特征生成多个全局信息,每个全局信息与至少一个词向量对应;根据多个词向量以及多个全局信息,获取目标文本的多个局部特征;根据多个局部特征生成目标文本的表示向量。本发明实施例的方法将文本的全局特征融合在局部特征的抽取过程中,因此生成的局部特征对于全局背景的理解会更好。进而,只需要很浅的网络就可以直接对文本进行分类,并取得优异的分类效果,并且无需额外的更深层的网络,以降低学习难度。

    搜索方法及装置
    3.
    发明公开

    公开(公告)号:CN106021516A

    公开(公告)日:2016-10-12

    申请号:CN201610348789.9

    申请日:2016-05-24

    Abstract: 本发明提供一种搜索方法及装置。本发明实施例通过根据所获取的搜索关键词,获得搜索结果,进而将所述搜索结果,聚类到所述搜索关键词的潜在需求下,使得能够输出所述潜在需求下所聚类的搜索结果,由于考虑到用户可能会具有某一个方面或者几个方面的需求,因此,将搜索关键词所对应的搜索结果,聚类到该搜索关键词的一个或几个潜在需求下,能够使得用户很容易获得聚类在某个潜在需求下的一类内容,能够有效满足用户在搜索过程中出现的相关需求。

    一种获取泰文断句规则的方法及装置

    公开(公告)号:CN103268314A

    公开(公告)日:2013-08-28

    申请号:CN201310158470.6

    申请日:2013-05-02

    Abstract: 本发明提供了一种获取泰文断句规则的方法及装置,其中所述方法包括:将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;确定所述泰文训练样本的断句特征;根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。通过上述方式,本发明能够有效提高泰文断句的准确性。

    基于大模型的交互卡的生成方法、装置、设备及智能体

    公开(公告)号:CN119376811A

    公开(公告)日:2025-01-28

    申请号:CN202411290517.9

    申请日:2024-09-13

    Inventor: 何伯磊

    Abstract: 本公开提供了一种基于大模型的交互卡的生成方法、装置、电子设备及存储介质,涉及计算机视觉、大模型以及人工智能等技术领域。具体实现方案为:获取用户的请求;基于所述用户的请求,调用相应的应用程序接口,获取所述应用程序接口的返回信息;基于所述应用程序接口的返回信息,采用生成式大模型,生成交互卡。本公开的技术,能够有效地提高前端中交互卡的生成效率。

    基于大模型的目标业务模型生成及数据处理方法和装置

    公开(公告)号:CN119312943A

    公开(公告)日:2025-01-14

    申请号:CN202411302931.7

    申请日:2024-09-18

    Inventor: 何伯磊

    Abstract: 本公开提供了一种基于大模型的目标业务模型生成及数据处理方法和装置,涉及人工智能技术领域,具体为智能办公、大数据、大模型等技术领域。基于大模型的目标业务模型生成方法包括:对至少两个预训练大模型进行知识蒸馏,以获得目标场景的基座模型;每个预训练大模型与所述目标场景包括的至少两种业务类型中的一种业务类型对应;对所述基座模型进行知识蒸馏,以获得所述至少两种业务类型中目标业务类型的目标业务模型;所述目标业务模型用于处理所述目标业务类型的数据。

    大语言模型蒸馏方法、装置、电子设备及存储介质

    公开(公告)号:CN119204263A

    公开(公告)日:2024-12-27

    申请号:CN202411321302.9

    申请日:2024-09-20

    Inventor: 何伯磊

    Abstract: 本申请公开了大语言模型蒸馏方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及大模型等人工智能领域。具体实现方案为:获取大语言模型和多个不同的第一小语言模型;其中,将大语言模型作为教师模型,将第一小语言模型作为学生模型,大语言模型的模型规模大于第一小语言模型的模型规模;利用教师模型,对学生模型进行蒸馏训练,得到多个第一蒸馏模型;通过第一蒸馏模型之间互相学习,得到每个第一蒸馏模型对应的第二蒸馏模型;根据第二蒸馏模型,对第二小语言模型进行训练,得到目标蒸馏模型;其中,第二小语言模型的模型规模小于大语言模型的模型规模。

    基于文本的问题生成方法及问题生成模型的训练方法

    公开(公告)号:CN116089586A

    公开(公告)日:2023-05-09

    申请号:CN202310135420.X

    申请日:2023-02-10

    Abstract: 本公开提供了基于文本的问题生成方法及问题生成模型的训练方法,涉及人工智能中的自然语言处理、深度学习等技术领域,包括:获取待提取文本;并对待提取文本进行意图识别处理,确定待提取文本的第一分类信息;其中,第一分类信息用于指示待提取文本是否具有疑问意图;若确定待提取文本具有疑问意图,则确定待提取文本的局部语义特征;其中,局部语义特征用于指示待提取文本包含的词语在待提取文本的局部上下文中所表征的语义;局部上下文为待提取文本中与词语相邻的其余词语;根据局部语义特征,确定待提取文本包含的问题词语;确定问题词语为待提取文本对应的问题信息,并推送问题信息,通过上述方法,以提高问题信息的获取的准确度。

    一种获取泰文断句规则的方法及装置

    公开(公告)号:CN103268314B

    公开(公告)日:2018-08-10

    申请号:CN201310158470.6

    申请日:2013-05-02

    Abstract: 本发明提供了一种获取泰文断句规则的方法及装置,其中所述方法包括:将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;确定所述泰文训练样本的断句特征;根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。通过上述方式,本发明能够有效提高泰文断句的准确性。

    观点处理方法和装置以及搜索方法和装置

    公开(公告)号:CN104063497B

    公开(公告)日:2018-03-06

    申请号:CN201410319166.X

    申请日:2014-07-04

    Abstract: 本发明实施例提供一种观点处理方法和装置以及搜索方法和装置。观点处理方法包括:基于预设策略从问答对资源中获取问题对应的观点;将问题所对应的观点进行聚合,形成问题观点库。本发明实施例提供的观点处理方法和装置,通过从问答对资源获取问题对应的观点,能从海量的问答对资源中得到问题对应的简短观点,并通过观点聚合,能得到问题对应的观点集合,从而能够建立问题观点库。本发明实施例提供的搜索方法和装置,通过在获取用户通过搜索框输入的检索式之后,在利用本发明任意实施例提供的观点处理方法形成的问题观点库中,匹配检索式,能够得到并直接呈现与检索式对应的观点,从而使用户能够直接获知与检索问题相关的观点,提高了搜索效率。

Patent Agency Ranking