双语文本的句子对齐方法

    公开(公告)号:CN104360996A

    公开(公告)日:2015-02-18

    申请号:CN201410706236.7

    申请日:2014-11-27

    发明人: 江潮 何征宇

    IPC分类号: G06F17/28 G06F17/27

    摘要: 本发明涉及一种文本自动翻译技术领域,公开了一种双语文本的句子对齐方法,在自动对齐前,在双语文本中标定若干对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,然后在所述若干对齐区间内分别进行自动对齐。所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对。采用本发明的双语文本的句子对齐方法,句子对齐的准确率较现有自动对齐方法高,而且随着标定对齐锚点数数量提高而提高,理论上句子对齐准确率接近100%。同时大大降低人工审核的工作量投入纠正,提高了自动翻译语料库的制作效率。

    一种翻译系统及翻译方法

    公开(公告)号:CN103823796A

    公开(公告)日:2014-05-28

    申请号:CN201410062856.1

    申请日:2014-02-25

    发明人: 江潮

    IPC分类号: G06F17/28 G06F17/30

    摘要: 本发明公开了一种翻译系统及翻译方法,输入需要翻译的原文,将原文切割成碎片,编号,显示在原文框;将原文碎片在语料库中检索匹配,默认选择匹配度最高的译文,按照编号组合,显示在译文框;人工审核译文框中的译文,对要修改的目标译文,点击该条译文对应的编号,弹出扩展框,参考扩展框中显示的该编号对应的匹配译文,进行替换或者修改,本发明利用窗口显示匹配译文的方式进行审核校对,提高了翻译准确度的同时节省了人力成本,且提高了用户的体验舒适度。

    多策略结合文档自动分类方法

    公开(公告)号:CN103092931A

    公开(公告)日:2013-05-08

    申请号:CN201210594872.6

    申请日:2012-12-31

    发明人: 江潮

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种多策略结合文档自动分类方法,包括:对于给定的待分类文档,对其进行关键词提取,按照关键词获取待分类文档向量,获取标准文档库中每个类的类中心向量;根据所述类中心向量获取已分类文档的类阀值;将待分类文档向量与类中心的相似度同所述类阀值进行比较,当待分类文档向量与类中心的相似度大于等于所述类阀值时,采用向量空间法对待分类文档进行分类;否则,使用KNN方法对所述待分类文档进行分类。与现有技术相比,本发明技术方案能大大提高文档分类效率,同时又不失分类精度。

    一种网络信息窗口显示的方法

    公开(公告)号:CN104090933A

    公开(公告)日:2014-10-08

    申请号:CN201410291018.1

    申请日:2014-06-25

    发明人: 江潮 王杰

    IPC分类号: G06F17/30 G06F3/0484

    CPC分类号: G06F17/30867

    摘要: 一种网络信息窗口显示的方法,包括:获取目标元素链接的目标页面的源代码;提取所述源代码中特定标签下的数据内容;建立窗口显示提取到的所述数据内容。本发明通过采用特定标签的检索获取有效信息,有效地将无效信息过滤掉,便于用户浏览有效信息,并且减小用户设备的工作量,提供用户设备的工作效率。

    一种收集信息碎片的方法

    公开(公告)号:CN103778252A

    公开(公告)日:2014-05-07

    申请号:CN201410060781.3

    申请日:2014-02-24

    发明人: 江潮 王杰

    IPC分类号: G06F17/30 G06F3/0481

    摘要: 本发明公开了一种收集信息碎片的方法,包括:用户准备收集信息碎片时,通过操作给出触发命令;系统接收到所述触发命令后,弹出显示窗口,并且以浮动窗口的方式置顶显示;用户收集信息碎片,形成目录,目录和信息碎片的内容在显示窗口中显示;储存信息碎片;将信息碎片输出为文档;所述置顶显示为将显示窗口前置于所有页面的最前面。本发明通过窗口置顶和储存这两种方法的结合,实现收集碎片但不需要频繁切换页面的功能,操作简单。

    一种跨平台汉字乱码恢复方法

    公开(公告)号:CN104182286A

    公开(公告)日:2014-12-03

    申请号:CN201410285563.X

    申请日:2014-06-24

    发明人: 江潮 王杰

    IPC分类号: G06F11/00

    摘要: 本发明公开了一种跨平台汉字乱码恢复方法,其特征是:获取发送平台和接收平台的编码格式;识别出发送平台的汉字字符和非汉字字符,非汉字字符将汉字字符集分割成若干个汉字字符串;按先后顺序对每一个汉字字符串进行归偶处理;所述归偶处理是将待转换汉字调整为偶数个字符。本发明的优点是:根据发送平台和接收平台的编码类型,进行适应性归偶处理并在转码后剔除多余字节,从而解决了乱码问题,极大提高了用户体验。

    一种管理文档的方法及系统

    公开(公告)号:CN103942186A

    公开(公告)日:2014-07-23

    申请号:CN201410122340.1

    申请日:2014-03-28

    发明人: 江潮

    IPC分类号: G06F17/24

    摘要: 一种管理文档的方法,包括:记录文档在编辑过程中产生的至少一处修改变动,及每处所述修改变动在所述文档中的位置信息;将记录的所述修改变动和所述位置信息作为单独的一个文件保存。本发明还公开了一种管理文档的系统。本发明解决了存储文档的资源浪费的问题,减少了文档在存储空间的占用率,缓解了存储设备的工作压力。

    一种翻译任务推送的方法

    公开(公告)号:CN103473683A

    公开(公告)日:2013-12-25

    申请号:CN201310406258.7

    申请日:2013-09-09

    发明人: 江潮

    IPC分类号: G06Q30/00 G06F17/20

    摘要: 本发明公开了一种翻译任务推送的方法,包括:根据翻译订单中的优选条件设定,和翻译提供方的优选条件取值,计算所述翻译订单与翻译提供方的契合度评估值;对所述契合评估值进行筛选,确定候选翻译提供方;将所述翻译订单推送给筛选出的所述候选翻译提供方。本发明通过计算出订单优选条件和翻译提供方之间契合度的评估值,从大量的翻译服务提供方中找出那些最适合的候选者,然后将订单推送给他们,供他们选择是否接受,从而避免订单被不满足要求或与要求相差甚远的翻译提供方接受,提高订单顺利完成的概率。

    自动建立关键词索引表的方法

    公开(公告)号:CN103064969A

    公开(公告)日:2013-04-24

    申请号:CN201210593097.2

    申请日:2012-12-31

    发明人: 江潮

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种自动建立关键词索引表的方法,包括:对待翻译文档进行分词处理获得文档的词语列表,对该词语列表进行词性标注;过滤词语列表中的候选关键词,获得粗候选词语集合,获取候选关键词各个义项的代码;根据词语的语义相似度对候选关键词进行构建同义词词链,得到同义词链集合;获取同义词链集合中词汇的词语权值,按照词语权值提取关键词组成关键词集合;将关键词集合和已有的参考库关键词索引集合比较,如果参考库关键词索引集合包含候选关键词,则给出相关文档集;如果不包含候选关键词字,将候选关键词加入参考库关键词集合,同时建立索引。本发明技术方案与传统的关键词提取方法相比,在查准率和召回率上有明显提高。

    一种存储文档的方法及系统

    公开(公告)号:CN103942185A

    公开(公告)日:2014-07-23

    申请号:CN201410122294.5

    申请日:2014-03-28

    发明人: 江潮

    IPC分类号: G06F17/24

    摘要: 一种存储文档的方法,包括:记录文档在编辑过程中产生的至少一处修改变动,及每处所述修改变动在所述文档中的位置信息;扫描所有所述修改变动,确定所有所述修改变动中的每个字符的出现频率,建立哈夫曼树;根据所述哈夫曼树,建立每个所述修改变动的编码串;将所述哈夫曼树、每个所述修改变动的编码串和每个所述修改变动的所述位置信息作为单独的一个文件保存。本发明还公开了一种存储文档的系统。本发明解决了存储文档的资源浪费的问题,减少了文档在存储空间的占用率,缓解了存储设备的工作压力。