一种基于版式文件处理大文件的方法
摘要:
本发明涉及计算机技术领域,具体涉及一种基于版式文件处理大文件的方法。该方法包括:获取大文件的每页子文件中的可视化图像,获取每个语义元素的位置索引;对可视化图像中的文本数据进行分词并获取每个词的重要程度;同时获取可视化图像的分割图像;对于分割图像的每个语义元素,获取前景区域中的图像数据与背景区域的第一差异、文本数据与背景区域的第二差异,根据每个词对应的第二差异以及重要程度获取语义元素中的文本优先级,根据第一差异和文本优先级获取每个语义元素的显著度;按照显著度的大小将每页子文件的所有语义元素依次传输至客户端,以使客户端对其进行元素组装。本发明实施例能够使大文件传输流畅的同时首先显示重要部分。
公开/授权文献
0/0