释义文本深度匹配模型构建方法与释义文本深度匹配方法

    公开(公告)号:CN109145292B

    公开(公告)日:2022-05-27

    申请号:CN201810836453.6

    申请日:2018-07-26

    摘要: 本发明提供了一种释义文本深度匹配模型构建方法与释义文本深度匹配方法。释义文本深度匹配模型构建方法包括:获得训练样本集,训练样本集包括多个训练句对,每个训练句对包括第一与第二训练语句及其之间的语义匹配分数;获得各训练语句中每个词的语义特征向量和句法特征向量,计算该词的语义特征向量和句法特征向量之张量积,将该语句中各词对应的张量积的矩阵和确定为该训练语句的句法与语义交互特征量;将每个训练句对中的第一与第二训练语句的句法与语义交互特征量之矩阵差作为该训练句对的句法与语义交互特征量;利用卷积神经网络模型对每个训练句对进行训练,得到释义文本深度匹配模型。上述技术能够提高文本释义识别的准确度。

    释义文本深度匹配模型构建方法与释义文本深度匹配方法

    公开(公告)号:CN109145292A

    公开(公告)日:2019-01-04

    申请号:CN201810836453.6

    申请日:2018-07-26

    摘要: 本发明提供了一种释义文本深度匹配模型构建方法与释义文本深度匹配方法。释义文本深度匹配模型构建方法包括:获得训练样本集,训练样本集包括多个训练句对,每个训练句对包括第一与第二训练语句及其之间的语义匹配分数;获得各训练语句中每个词的语义特征向量和句法特征向量,计算该词的语义特征向量和句法特征向量之张量积,将该语句中各词对应的张量积的矩阵和确定为该训练语句的句法与语义交互特征量;将每个训练句对中的第一与第二训练语句的句法与语义交互特征量之矩阵差作为该训练句对的句法与语义交互特征量;利用卷积神经网络模型对每个训练句对进行训练,得到释义文本深度匹配模型。上述技术能够提高文本释义识别的准确度。

    基于字节级n元文法的特征提取方法及垃圾邮件过滤器

    公开(公告)号:CN101540017B

    公开(公告)日:2016-08-03

    申请号:CN200910071908.0

    申请日:2009-04-28

    IPC分类号: H04L12/58

    摘要: 基于字节级n元文法的特征提取方法及垃圾邮件过滤器,涉及到包括垃圾邮件过滤技术在内的信息处理技术领域。它解决了现有文本特征提取方法中存在的需要词库支持,并不能够同时适应对英文、汉字、图形以及其它形式信息的特征提取、鉴别的问题,本发明的特征提取方法所提取的特征信息为m个长度为n个字节的信息片段序列。本发明的垃圾邮件过滤器中的分类器采用上述方法提取邮件的特征信息作为判断依据,并采用逻辑回归模型这一判别学习模型从理论上保证能够取得良好的过滤性能;本发明的垃圾邮件过滤器中的训练器采用在线学习方式,采用TONE(Train On or Near Error)方法调整特征权重。本发明的垃圾邮件过滤器尤其适用于中文垃圾邮件的过滤。

    基于莫比乌斯带的擦地机器人

    公开(公告)号:CN103190867B

    公开(公告)日:2015-11-11

    申请号:CN201310128497.0

    申请日:2013-04-15

    IPC分类号: A47L11/294 A47L11/40

    摘要: 基于莫比乌斯带的擦地机器人属于家庭用自动清洁工具;该机器人包括成莫比乌斯带结构的抹布(1)缠绕在滚筒群上;所述的抹布(1)在底部成水平状态,在顶部具有180°翻转的结构;在抹布(1)上设置有主动滚筒(2),夹紧抹布(1),带动抹布(1)运动;所述的主动滚动(2)至少包括一组转轴平行、母线相接触的一对滚筒结构;使用本发明基于莫比乌斯带的擦地机器人,设置的抹布可以两面使用,减缓抹布表面的退化速度,提高擦地效果以及吸水性效果,有效延长擦地机器人的使用寿命。

    基于排序的抄袭检测文本匹配方法

    公开(公告)号:CN108509414B

    公开(公告)日:2021-09-03

    申请号:CN201810198863.2

    申请日:2018-03-09

    IPC分类号: G06F40/30 G06F16/35

    摘要: 基于排序的抄袭检测文本匹配方法,涉及抄袭检测技术领域。本发明为了实现高模糊抄袭的检测,解决基于启发式方法依赖专家经验、无法融合抄袭检测中各类有效的特征的问题。将抄袭文本的匹配形式化为一个排序任务,给出一个可疑文本片段,该方法应用基于序对的排序学习方法获得源文档中该片段最可能抄袭的片段。本发明引入机器翻译的评价指标METEOR来捕获词汇相似和语义相似。应用PAN2012和PAN 2013的抄袭检测数据集对该方法进行了评价,并与PAN2013、2013和2014评测中获得最好性能的方法进行了比较。在高模糊抄袭和总结抄袭子集上,本发明相对基线方法在评价指标Plagdet上分别提高了22%和43%。本发明方法时间效率也优于基线方法。

    一种面向微博检索的基于时间的微博文档扩展方法

    公开(公告)号:CN105912724A

    公开(公告)日:2016-08-31

    申请号:CN201610304771.9

    申请日:2016-05-10

    IPC分类号: G06F17/30

    CPC分类号: G06F16/9535 G06F16/951

    摘要: 面向微博检索的基于时间的微博文档扩展方法,涉及微博检索技术领域。本发明为了解决微博短给文档扩展带来的不利影响会削弱文档扩展对估计微博文档模型的作用,从而限制微博检索性能的提升的问题。本发明利用相关微博的时间特性扩展文档,据此提出了基于时间的微博文档模型。该模型综合考虑了相关微博整体在时间上呈现的爆发性和个体在时间上呈现的近邻性特点,利用词在爆发期内的微博和时间近邻的微博上的分布获得文档扩展词的权重,并提出了基于机器学习的方法选择查询扩展词,进而估计更准确的文档模型。本发明方法能更好地避免了微博短给文档扩展带来的影响。

    基于莫比乌斯带的擦地机器人

    公开(公告)号:CN103190867A

    公开(公告)日:2013-07-10

    申请号:CN201310128497.0

    申请日:2013-04-15

    IPC分类号: A47L11/294 A47L11/40

    摘要: 基于莫比乌斯带的擦地机器人属于家庭用自动清洁工具;该机器人包括成莫比乌斯带结构的抹布(1)缠绕在滚筒群上;所述的抹布(1)在底部成水平状态,在顶部具有180°翻转的结构;在抹布(1)上设置有主动滚筒(2),夹紧抹布(1),带动抹布(1)运动;所述的主动滚动(2)至少包括一组转轴平行、母线相接触的一对滚筒结构;使用本发明基于莫比乌斯带的擦地机器人,设置的抹布可以两面使用,减缓抹布表面的退化速度,提高擦地效果以及吸水性效果,有效延长擦地机器人的使用寿命。

    抄袭检测中的基于机器学习的源检索的查询生成方法

    公开(公告)号:CN106960003A

    公开(公告)日:2017-07-18

    申请号:CN201710080673.6

    申请日:2017-02-15

    IPC分类号: G06F17/30 G06K9/62

    摘要: 抄袭检测中的基于机器学习的源检索的查询生成方法,涉及信息检索技术领域,具体涉及到信息检索技术中、查询的生成技术。本发明解决了现有技术的源检索技术中,采用基于启发式方法进行查询生成的方法存在的依赖专家经验、缺乏持续改进的能力的问题。本发明所述的方法为:针对一个可疑文档片段sk,采用现有n种查询生成方法获得一组备选查询集合将该集合内的所有备选查询进行排序,获得一个排序列表;将所述排序列表的前面m个查询作为可疑文档片断sk的查询本发明克服了现有源检索技术领域中针对查询生成方法的固有研究思路,而是充分的利用了不同源检索方法在同一可疑文档片段上具有不同源检索性能的特点。

    一种基于历史微博的微博实时过滤模型

    公开(公告)号:CN105868415A

    公开(公告)日:2016-08-17

    申请号:CN201610297912.9

    申请日:2016-05-06

    IPC分类号: G06F17/30

    CPC分类号: G06F16/9535

    摘要: 一种基于历史微博的微博实时过滤模型,涉及微博过滤技术领域。本发明为了解决现有技术中基于分类的微博过滤模型存在早期分类面不准的问题、以及基于检索的微博实时过滤模型存在无法保证最优化问题,且现有技术中也没有提供将二者有效融合的方法。本发明提出的通过历史微博构造的先验知识来调整分类面的方法使得过滤器用于判断每个样本时所使用的分类面是不同的,这是本发明模型与传统基于分类模型的微博过滤模型最大的不同。基于历史微博的微博实时过滤模型在TREC 2012微博过滤数据集上进行了实验。实验结果表明,本发明所提出的微博实时过滤模型的性能优于多个先进的微博过滤模型及TREC 2012微博过滤评测中最好的方法。

    基于排序策略的信息过滤系统

    公开(公告)号:CN101699432B

    公开(公告)日:2015-01-21

    申请号:CN200910073206.6

    申请日:2009-11-13

    IPC分类号: G06F17/30

    摘要: 基于排序策略的信息过滤系统,涉及到信息过滤技术领域。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。本发明的信息过滤系统由训练模型、过滤器和特征权重库组成,所述过滤器对新信息单元进行识别的方法为:将信息过滤问题转化成排序问题,针对核心评价指标1-ROCA进行优化,建立基于排序策略的信息过滤模型,所述过滤模型采用排序逻辑回归学习算法,并综合运用基于TONE策略的参数权重更新算法和重采样技术获得权重参数,进而获得新信息单元的预测分值,根据预测分值与设定阈值的对比结果,判定新邮件的属性。本发明的方法可以应用到各种信息过滤、信息推送系统中。