一种获取词向量的方法和装置

    公开(公告)号:CN106372086A

    公开(公告)日:2017-02-01

    申请号:CN201510437087.3

    申请日:2015-07-23

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种获取词向量的方法和装置,属于计算机技术领域。所述方法包括:获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。采用本发明,可以提高词向量的语义的准确度。

    跨语言的观点数据分类方法和装置

    公开(公告)号:CN106294507B

    公开(公告)日:2020-07-24

    申请号:CN201510316362.6

    申请日:2015-06-10

    IPC分类号: G06F16/35

    摘要: 本发明公开了一种跨语言的观点数据分类方法和装置,属于数据分类领域。方法包括:获取部分平行数据;构造源数据矩阵、源基矩阵和源特征矩阵,确定源语言的第一目标函数;构造目标数据矩阵、目标基矩阵和目标特征矩阵,并确定目标语言的第二目标函数;根据第一目标函数、第二目标函数和预设条件确定总目标函数,预设条件为第一源观点数据对应的第一源特征矩阵与第一目标观点数据对应的第一目标特征矩阵相同;确定总目标函数中各个参数的收敛值,建立分类模型,以对目标语言的观点数据进行分类。本发明提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间和人力成本。

    一种获取词向量的方法和装置

    公开(公告)号:CN106372086B

    公开(公告)日:2019-12-03

    申请号:CN201510437087.3

    申请日:2015-07-23

    IPC分类号: G06F16/36

    摘要: 本发明公开了一种获取词向量的方法和装置,属于计算机技术领域。所述方法包括:获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。采用本发明,可以提高词向量的语义的准确度。

    一种反馈答案的方法和装置

    公开(公告)号:CN106294505B

    公开(公告)日:2020-07-07

    申请号:CN201510316013.4

    申请日:2015-06-10

    摘要: 本发明公开了一种反馈答案的方法和装置,属于计算机技术领域。所述方法包括:根据训练样本库中存储的问题、最佳答案及其它答案的对应关系,基于问题与对应的最佳答案的语义接近度大于问题与对应的其它答案的语义接近度的训练条件,对预设的语义提取公式中的语义提取参数进行训练,得到语义提取参数的训练值;当接收到携带有目标问题的解答请求时,根据所述目标问题、答案查询库中的各答案、所述语义提取公式、以及所述语义提取参数的训练值,分别确定所述各答案与所述目标问题的语义接近度;根据所述各答案与所述目标问题的语义接近度,在所述各答案中选取目标答案,对所述解答请求进行反馈。采用本发明,可以提高服务器进行答案反馈的准确率。

    一种反馈答案的方法和装置

    公开(公告)号:CN106294505A

    公开(公告)日:2017-01-04

    申请号:CN201510316013.4

    申请日:2015-06-10

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种反馈答案的方法和装置,属于计算机技术领域。所述方法包括:根据训练样本库中存储的问题、最佳答案及其它答案的对应关系,基于问题与对应的最佳答案的语义接近度大于问题与对应的其它答案的语义接近度的训练条件,对预设的语义提取公式中的语义提取参数进行训练,得到语义提取参数的训练值;当接收到携带有目标问题的解答请求时,根据所述目标问题、答案查询库中的各答案、所述语义提取公式、以及所述语义提取参数的训练值,分别确定所述各答案与所述目标问题的语义接近度;根据所述各答案与所述目标问题的语义接近度,在所述各答案中选取目标答案,对所述解答请求进行反馈。采用本发明,可以提高服务器进行答案反馈的准确率。

    领域自适应的观点数据分类方法及装置

    公开(公告)号:CN106294506B

    公开(公告)日:2020-04-24

    申请号:CN201510316353.7

    申请日:2015-06-10

    IPC分类号: G06F16/35

    摘要: 本发明公开一种领域自适应的观点数据分类方法,属于互联网技术领域。包括:确定源领域检索词矩阵及目标领域检索词矩阵;确定源领域目标函数及目标领域目标函数;根据源领域目标函数及目标领域目标函数确定总目标函数;分别确定总目标函数中各个参数的目标值;根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。由于总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域间的共享话题的枢纽矩阵有关,从而提供一种借助共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域间的差异,从而可确保分类结果的准确性。

    跨语言的观点数据分类方法和装置

    公开(公告)号:CN106294507A

    公开(公告)日:2017-01-04

    申请号:CN201510316362.6

    申请日:2015-06-10

    IPC分类号: G06F17/30

    CPC分类号: G06F16/35

    摘要: 本发明公开了一种跨语言的观点数据分类方法和装置,属于数据分类领域。方法包括:获取部分平行数据;构造源数据矩阵、源基矩阵和源特征矩阵,确定源语言的第一目标函数;构造目标数据矩阵、目标基矩阵和目标特征矩阵,并确定目标语言的第二目标函数;根据第一目标函数、第二目标函数和预设条件确定总目标函数,预设条件为第一源观点数据对应的第一源特征矩阵与第一目标观点数据对应的第一目标特征矩阵相同;确定总目标函数中各个参数的收敛值,建立分类模型,以对目标语言的观点数据进行分类。本发明提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间和人力成本。

    领域自适应的观点数据分类方法及装置

    公开(公告)号:CN106294506A

    公开(公告)日:2017-01-04

    申请号:CN201510316353.7

    申请日:2015-06-10

    IPC分类号: G06F17/30

    摘要: 本发明公开一种领域自适应的观点数据分类方法,属于互联网技术领域。包括:确定源领域检索词矩阵及目标领域检索词矩阵;确定源领域目标函数及目标领域目标函数;根据源领域目标函数及目标领域目标函数确定总目标函数;分别确定总目标函数中各个参数的目标值;根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。由于总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域间的共享话题的枢纽矩阵有关,从而提供一种借助共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域间的差异,从而可确保分类结果的准确性。

    跨领域观点数据的分类方法和装置

    公开(公告)号:CN105095277A

    公开(公告)日:2015-11-25

    申请号:CN201410201027.7

    申请日:2014-05-13

    IPC分类号: G06F17/30 G06K9/66

    摘要: 本发明公开了一种跨领域观点数据的分类方法和装置,属于互联网技术领域。方法包括:根据源领域和目标领域的共享话题获取共享话题矩阵,并根据源领域的领域特定话题和目标领域的特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵;确定源领域的目标函数,并确定目标领域的目标函数;根据源领域的目标函数和目标领域的目标函数确定总目标函数;确定总目标函数中各个参数的收敛值,根据总目标函数中各个参数的收敛值获取分类函数;根据分类函数对目标领域的观点数据进行分类。本发明通过共享话题矩阵获取的分类函数对跨领域观点数据进行分类,由于共享话题矩阵可以减小不同领域的差距,因而提高了对跨领域观点数据分类的精度。

    文档查询方法及装置
    10.
    发明公开

    公开(公告)号:CN104239402A

    公开(公告)日:2014-12-24

    申请号:CN201410353033.4

    申请日:2014-07-23

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30675 G06F17/30693

    摘要: 本发明公开了一种文档查询方法及装置,属于数据查询领域。所述方法包括:通过获取待查询的文档q和该文档q对应的类别Cp;通过与类别Cp对应的词-主题矩阵将该文档q变换到主题空间上的最优表示形式vq;根据vq在与类别Cp对应的主题-文档矩阵Vp中查询与该文档q相似的历史文档;其中,词-主题矩阵和主题-文档矩阵Vp是预先对各个历史文档按照不同类别进行组非负矩阵分解所得到的矩阵;本发明解决了目前查询方法所查询到的历史文档的结果不一定符合用户预期的问题;达到了通过词-主题矩阵和主题-文档矩阵Vp来进行文档查询,提高了查询的准确率,优化了文档查询的结果。