一种获取词向量的方法和装置

    公开(公告)号:CN106372086A

    公开(公告)日:2017-02-01

    申请号:CN201510437087.3

    申请日:2015-07-23

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种获取词向量的方法和装置,属于计算机技术领域。所述方法包括:获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。采用本发明,可以提高词向量的语义的准确度。

    领域自适应的观点数据分类方法及装置

    公开(公告)号:CN106294506B

    公开(公告)日:2020-04-24

    申请号:CN201510316353.7

    申请日:2015-06-10

    IPC分类号: G06F16/35

    摘要: 本发明公开一种领域自适应的观点数据分类方法,属于互联网技术领域。包括:确定源领域检索词矩阵及目标领域检索词矩阵;确定源领域目标函数及目标领域目标函数;根据源领域目标函数及目标领域目标函数确定总目标函数;分别确定总目标函数中各个参数的目标值;根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。由于总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域间的共享话题的枢纽矩阵有关,从而提供一种借助共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域间的差异,从而可确保分类结果的准确性。

    跨语言的观点数据分类方法和装置

    公开(公告)号:CN106294507A

    公开(公告)日:2017-01-04

    申请号:CN201510316362.6

    申请日:2015-06-10

    IPC分类号: G06F17/30

    CPC分类号: G06F16/35

    摘要: 本发明公开了一种跨语言的观点数据分类方法和装置,属于数据分类领域。方法包括:获取部分平行数据;构造源数据矩阵、源基矩阵和源特征矩阵,确定源语言的第一目标函数;构造目标数据矩阵、目标基矩阵和目标特征矩阵,并确定目标语言的第二目标函数;根据第一目标函数、第二目标函数和预设条件确定总目标函数,预设条件为第一源观点数据对应的第一源特征矩阵与第一目标观点数据对应的第一目标特征矩阵相同;确定总目标函数中各个参数的收敛值,建立分类模型,以对目标语言的观点数据进行分类。本发明提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间和人力成本。

    领域自适应的观点数据分类方法及装置

    公开(公告)号:CN106294506A

    公开(公告)日:2017-01-04

    申请号:CN201510316353.7

    申请日:2015-06-10

    IPC分类号: G06F17/30

    摘要: 本发明公开一种领域自适应的观点数据分类方法,属于互联网技术领域。包括:确定源领域检索词矩阵及目标领域检索词矩阵;确定源领域目标函数及目标领域目标函数;根据源领域目标函数及目标领域目标函数确定总目标函数;分别确定总目标函数中各个参数的目标值;根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。由于总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域间的共享话题的枢纽矩阵有关,从而提供一种借助共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域间的差异,从而可确保分类结果的准确性。

    跨语言的观点数据分类方法和装置

    公开(公告)号:CN106294507B

    公开(公告)日:2020-07-24

    申请号:CN201510316362.6

    申请日:2015-06-10

    IPC分类号: G06F16/35

    摘要: 本发明公开了一种跨语言的观点数据分类方法和装置,属于数据分类领域。方法包括:获取部分平行数据;构造源数据矩阵、源基矩阵和源特征矩阵,确定源语言的第一目标函数;构造目标数据矩阵、目标基矩阵和目标特征矩阵,并确定目标语言的第二目标函数;根据第一目标函数、第二目标函数和预设条件确定总目标函数,预设条件为第一源观点数据对应的第一源特征矩阵与第一目标观点数据对应的第一目标特征矩阵相同;确定总目标函数中各个参数的收敛值,建立分类模型,以对目标语言的观点数据进行分类。本发明提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间和人力成本。

    一种获取词向量的方法和装置

    公开(公告)号:CN106372086B

    公开(公告)日:2019-12-03

    申请号:CN201510437087.3

    申请日:2015-07-23

    IPC分类号: G06F16/36

    摘要: 本发明公开了一种获取词向量的方法和装置,属于计算机技术领域。所述方法包括:获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。采用本发明,可以提高词向量的语义的准确度。

    一种反馈答案的方法和装置

    公开(公告)号:CN106294505B

    公开(公告)日:2020-07-07

    申请号:CN201510316013.4

    申请日:2015-06-10

    摘要: 本发明公开了一种反馈答案的方法和装置,属于计算机技术领域。所述方法包括:根据训练样本库中存储的问题、最佳答案及其它答案的对应关系,基于问题与对应的最佳答案的语义接近度大于问题与对应的其它答案的语义接近度的训练条件,对预设的语义提取公式中的语义提取参数进行训练,得到语义提取参数的训练值;当接收到携带有目标问题的解答请求时,根据所述目标问题、答案查询库中的各答案、所述语义提取公式、以及所述语义提取参数的训练值,分别确定所述各答案与所述目标问题的语义接近度;根据所述各答案与所述目标问题的语义接近度,在所述各答案中选取目标答案,对所述解答请求进行反馈。采用本发明,可以提高服务器进行答案反馈的准确率。

    一种反馈答案的方法和装置

    公开(公告)号:CN106294505A

    公开(公告)日:2017-01-04

    申请号:CN201510316013.4

    申请日:2015-06-10

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种反馈答案的方法和装置,属于计算机技术领域。所述方法包括:根据训练样本库中存储的问题、最佳答案及其它答案的对应关系,基于问题与对应的最佳答案的语义接近度大于问题与对应的其它答案的语义接近度的训练条件,对预设的语义提取公式中的语义提取参数进行训练,得到语义提取参数的训练值;当接收到携带有目标问题的解答请求时,根据所述目标问题、答案查询库中的各答案、所述语义提取公式、以及所述语义提取参数的训练值,分别确定所述各答案与所述目标问题的语义接近度;根据所述各答案与所述目标问题的语义接近度,在所述各答案中选取目标答案,对所述解答请求进行反馈。采用本发明,可以提高服务器进行答案反馈的准确率。

    多媒体数据推送方法及其装置

    公开(公告)号:CN111917809B

    公开(公告)日:2021-11-26

    申请号:CN201910384801.5

    申请日:2019-05-09

    摘要: 本发明实施例公开了一种多媒体数据推送方法及其装置,其中方法包括如下步骤:获取目标多媒体数据的历史推送信息,确定所述历史推送信息对应的置信区间;调用训练模型对所述历史推送信息进行处理,获得所述目标多媒体数据的预估推送信息;根据所述置信区间以及所述预估推送信息,确定所述训练模型针对所述目标多媒体数据的置信度;根据所述置信度控制所述目标多媒体数据的推送速度。采用本发明实施例,可以灵活控制多媒体数据的推送速度,进而有利于提高多媒体数据推送的精准度。

    图像处理方法、装置及存储介质

    公开(公告)号:CN108304845B

    公开(公告)日:2021-11-09

    申请号:CN201810039464.1

    申请日:2018-01-16

    摘要: 本发明公开了一种图像处理方法、装置及存储介质,属于图像处理技术领域。所述方法包括:对原始图像进行离散化处理,得到离散值图像;根据每个栅格的离散值,从离散值图像上,确定至少一个连通域;根据池化计算类型和每个连通域内每个栅格的特征值,对每个连通域进行池化计算,得到每个连通域上的池化计算结果;根据所有连通域上的池化计算结果,确定对原始图像的池化计算结果。本发明根据每个栅格的离散值和栅格间的位置关系,从离散值图像上确定出至少一个连通域,由于连通域上的各个像素点具有一定的关联性,因而池化计算结果更准确,进一步地提高了基于该池化结果所训练的图像识别模型的准确性。