-
公开(公告)号:CN112381089B
公开(公告)日:2024-06-07
申请号:CN202011312043.5
申请日:2020-11-20
申请人: 山西同方知网数字出版技术有限公司 , 同方知网(北京)技术有限公司
IPC分类号: G06V20/62 , G06V30/146 , G06V30/148 , G06V30/19
摘要: 本发明公开了一种复杂环境下的自反馈文本分离方法及系统,所述方法包括:检测图像是否存在文本区域,是,则切分出文字区域的最小外接区域;否则输出无待识别文本区域的纯图像结果;将文本区域进行分类,并根据接收到的反馈信息更新文本特征数据;将图像文本进行分离得到白底黑字文本分离结果,并根据接收到的反馈信息更新文本分离算法;对文本分离结果进行评价,并记录造成评估结果不理想的原因;对文本评价效果不好的图像,根据效果差的原因将分类结果进行反馈。本发明达到了各类型图像从输入到输出清晰白底黑字结果的自动化,以及文本分类器和文本分离器的自动反馈更新,在提高了图像识别结果正确性的同时,扩大了文本分离方法的普适性。
-
公开(公告)号:CN118133804A
公开(公告)日:2024-06-04
申请号:CN202311367853.4
申请日:2023-10-20
申请人: 同方知网(北京)技术有限公司 , 同方知网数字出版技术股份有限公司
IPC分类号: G06F40/205 , G06F9/54 , G06F11/14 , G06F3/0483 , G06F3/04842
摘要: 本申请公开了一种用于便携式文件格式PDF文档的富文本内容复制方法及装置,其中,方法包括:响应于针对待复制的目标PDF文档中目标元素内容的选中操作,以对所述目标元素内容进行解析,获得元素对象;对所述目标元素内容进行版式文档分析,获得与所述目标元素内容中元素对象对应的属性信息;响应于针对所述目标元素内容的复制操作,基于所述元素对象以及与元素对象对应的属性信息,将所述元素对象按照所对应的属性信息复制到目标应用程序中、以将所述目标元素内容复制到所述目标应用程序中。本申请中的方法,能够满足文本、图像、表格等元素对象的富文本内容一次性复制。
-
公开(公告)号:CN117829665A
公开(公告)日:2024-04-05
申请号:CN202311869293.2
申请日:2023-12-29
申请人: 同方股份有限公司 , 同方知网(北京)技术有限公司
IPC分类号: G06Q10/0639 , G06F16/9035
摘要: 本申请涉及教育及数据处理技术领域,提出一种绩效考评方法、装置、设备及可读存储介质,该方法包括:确定获取的科研数据的特征信息,基于特征信息将科研数据存储于基础数据库,向考核端提供考评方案配置页面,响应于配置结果获取考评标准,根据考评标准以及特征信息从基础数据库中筛选目标科研数据并生成待核对考评信息,向相应的申请端提供待核对考评信息,响应于核对结果生成待审核考评信息,向考核端提供待审核考评信息,响应于审核通过结果根据考评标准生成汇总统计提供给考核端。本申请提供的方法,灵活配置考核方案适用于大部分高校或科研院所的绩效考评,并且有效降低了考评过程中考核人员和申请人员的工作量。
-
公开(公告)号:CN117421143A
公开(公告)日:2024-01-19
申请号:CN202311503554.9
申请日:2023-11-13
申请人: 同方知网(北京)技术有限公司 , 同方知网数字出版技术股份有限公司
IPC分类号: G06F9/54 , G06F40/137 , G06F40/151 , G06F40/109 , G06F40/149
摘要: 本申请涉及文本处理技术领域,提出了一种PDF文本的复制优化方法、装置、设备及介质,其中,方法包括:当接收到针对目标PDF文档中目标文档内容的复制指令时,对所述目标文档内容进行文档特征分析,以确定所述目标文档内容的文档特征;根据所述目标文档内容的文档特征,对所述目标文档内容进行文本段落的切分与合并,得到段落划分后的目标文本;根据接收到的粘贴指令,将所述目标文本按照文件阅读顺序粘贴至对应的目标格式的文档中。通过该技术方案,根据文档特征重新进行文本段落的切分与合并,从而能够更大程度的还原复制文件的原始文档的结构,减少用户手动格式化复制内容的时间消耗,节省用户的时间和精力。
-
公开(公告)号:CN111291156B
公开(公告)日:2024-01-12
申请号:CN202010068158.8
申请日:2020-01-21
申请人: 同方知网(北京)技术有限公司 , 同方知网数字出版技术股份有限公司
IPC分类号: G06F16/33 , G06F16/332 , G06F16/35 , G06F16/36 , G06N3/0464 , G06N3/09
摘要: 本发明公开了一种基于知识图谱的问答意图识别方法,该方法包括:构建领域主题词典;构建模板;对检索语句进行词性分析和句法依存分析;利用词向量及LDA算法计算搜索文本与模板样例的相似度;在已知的词向量基础上,基于TextCNN做更广泛的意图识别来作为开放式信息的结果;在领域图谱中提取关键词。本发明综合多种方法以实现意图识别,并结合领域的知识图谱,达到精确答案与相关信息的综合检索,满足用户的多样需求。
-
公开(公告)号:CN115204160A
公开(公告)日:2022-10-18
申请号:CN202210924693.8
申请日:2022-08-02
申请人: 同方知网(北京)技术有限公司 , 同方知网数字出版技术股份有限公司
IPC分类号: G06F40/279 , G06F40/216
摘要: 本发明公开了一种面向智能标引的科技文献关键词标引方法,所述方法包括审读文献;对文献主题的逻辑结构进行分析;根据标引深度确定标引层级;根据文章描述及主题词表确定文献最终关键词;审核标引结果并记录。本发明极大地提高了人工标引关键词的客观性、准确性与一致性,提高关键词标引的质量和效率。提高科技文献检索的质量,同时,能为计算机智能标引提供高质量的关键词标引样本数据。
-
公开(公告)号:CN114817537A
公开(公告)日:2022-07-29
申请号:CN202210437428.7
申请日:2022-04-22
申请人: 同方知网数字出版技术股份有限公司 , 同方知网(北京)技术有限公司
IPC分类号: G06F16/35 , G06F40/237 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于政策文件数据的分类方法,构建不同分类下政策文件的样本数据,并存储到数据库中;选取在标签库中找到某个标签分类体系的数据,按照模型训练的数据需求将样本数据构建成训练数据集和测试数据集;将分类完成的训练样本语料数据加载到程序中,使用TextRNN+Attention算法对政策文件分类的数据进行训练,根据训练过程中的准确率调整模型参数,最终生成政策文件数据的分类模型;抽取政策文件相关数据,使用分类模型对政策数据进行标注分类操作,获取标注结果,分析模型的准确性和性能,对识别结果进行审核、筛选与修正;对校验后的分类结果,按照模型训练集预料的需求格式进行存储,以进行迭代训练,提升不同分类体系下的分类准确性。
-
公开(公告)号:CN114780744A
公开(公告)日:2022-07-22
申请号:CN202210414099.4
申请日:2022-04-19
申请人: 同方知网数字出版技术股份有限公司 , 同方知网(北京)技术有限公司
IPC分类号: G06F16/36 , G06F16/31 , G06F40/242 , G06F40/216 , G06N3/04
摘要: 本发明公开了一种面向知识图谱构建的人物简历解析方法,包括获取不同领域的人物简历数据;搭建面向知识图谱构建的人物简历信息提取模型;构建人物在不同领域职务表;利用词典及模型对简历信息进行识别;根据信息标注结果以搭建人物知识图所需的数据结构为导向对人物信息进行聚合。本发明面向人物知识图谱的构建,设计一套非结构化人物简历文本自动解析方法,能够快速将简历文本解析成构建人物图谱所需的格式。
-
公开(公告)号:CN113177420A
公开(公告)日:2021-07-27
申请号:CN202110488967.9
申请日:2021-04-29
申请人: 同方知网(北京)技术有限公司 , 同方知网数字出版技术股份有限公司
IPC分类号: G06F40/47 , G06F40/49 , G06F40/44 , G06F40/247 , G06F40/242 , G06K9/62
摘要: 本发明公开了一种基于学术文献的中英双语词典构建方法,包括:收集学术文献中英文标题语料、中英文关键词语料及中文全文中的中英文注解语料,并对语料进行预处理;分别构建中英文标题翻译词库、中英文关键词翻译词库及中英文注解翻译词库;分别对中英文关键词翻译词库、中英文注解翻译词库进行优化;抽取优化后的中英文关键词翻译词库与中英文注解翻译词库中的中文词汇,并构建中文词表;对中英文标题翻译词库进行优化;将中文词表通过中英文标题翻译词库、中英文关键词翻译词库、中英文注解翻译词库进行翻译,构建中英文双语词典。本发明对中英双语词典的准确率有很大的提升,解决现有中英双语词典构建方法中同义词处理存在效果不佳的问题。
-
公开(公告)号:CN112836501A
公开(公告)日:2021-05-25
申请号:CN202110062146.9
申请日:2021-01-18
申请人: 同方知网(北京)技术有限公司 , 同方知网数字出版技术股份有限公司
IPC分类号: G06F40/279 , G06F40/30 , G06N5/02 , G06N3/04
摘要: 本发明公开了一种基于Bert+BiLSTM+CRF的知识元自动抽取方法包括基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取;所述基于Bert的篇章结构划分以及基于Bert+BiLSTM+CRF的知识元的自动抽取分别包括模型训练阶段和知识元抽取阶段;所述模型训练阶段基于Bert模型特点,通过分析法律文书的主要内容和篇章结构特点进行方法设计,构建基于Bert的篇章段落标引模型Bert‑PMC;以及基于Bert‑PMC,融合双向递归神经网络BiLSTM和条件随机场CRF,构建基于Bert+BiLSTM+CRF的知识元自动抽取模型Bert‑BiLSTM‑CRF;所述知识元抽取阶段依次调用训练好的Bert‑PMC和Bert‑BiLSTM‑CRF进行法律知识元抽取。
-
-
-
-
-
-
-
-
-