对语料库的词语进行嵌入的计算机实施方法

    公开(公告)号:CN111324731B

    公开(公告)日:2023-10-17

    申请号:CN201911285084.7

    申请日:2019-12-13

    IPC分类号: G06F16/35 G06F16/36

    摘要: 本文中描述了用于词语嵌入的系统和方法,以避免需要丢弃在语料库中出现少于特定次数的罕见词语。本公开的实施方式涉及使用将包含词语的一组词汇分配到多个类的不同分配,来将词语多次分组到集群/类。然后使用分配生成训练语料库的多个副本,以将每个词语替换为合适的类。在多个类语料集上运行词语嵌入生成模型以生成多个类嵌入。然后,根据多对分配、类嵌入和协方差来重建黄金词语嵌入矩阵的估计。测试结果表明了本公开的实施方式的有效性。

    对语料库的词语进行嵌入的计算机实施方法

    公开(公告)号:CN111324731A

    公开(公告)日:2020-06-23

    申请号:CN201911285084.7

    申请日:2019-12-13

    IPC分类号: G06F16/35 G06F16/36

    摘要: 本文中描述了用于词语嵌入的系统和方法,以避免需要丢弃在语料库中出现少于特定次数的罕见词语。本公开的实施方式涉及使用将包含词语的一组词汇分配到多个类的不同分配,来将词语多次分组到集群/类。然后使用分配生成训练语料库的多个副本,以将每个词语替换为合适的类。在多个类语料集上运行词语嵌入生成模型以生成多个类嵌入。然后,根据多对分配、类嵌入和协方差来重建黄金词语嵌入矩阵的估计。测试结果表明了本公开的实施方式的有效性。

    预测深度学习缩放
    5.
    发明公开

    公开(公告)号:CN111260021A

    公开(公告)日:2020-06-09

    申请号:CN201910654453.9

    申请日:2019-07-19

    IPC分类号: G06N3/04 G06N3/08 G06K9/62

    摘要: 随着深度学习应用领域增长,更深入地理解训练集大小、计算规模和模型准确度改善之间的关系是非常有益的。本文呈现了随着训练集增长的误差和模型大小增长的大规模经验研究。本文介绍了用于这种测量的方法的实施方式以及用于预测诸如计算相关度量等其它度量的实施方式。本文示出了幂律可以用于表示深层模型关系,诸如误差和训练数据大小。还示出了模型大小随数据大小亚线性地缩放。这些缩放关系对深度学习研究、实践和系统具有重要影响。它们可以帮助模型调试、设置准确度目标和决定数据集增长。它们还可以引导计算系统设计并且强调持续计算缩放的重要性。