使用来自正交行和列的全局机器学习特征的表头部检测
摘要:
一种用于检测各种文档(例如PDF和HTML文件)中的头部的方法、系统和计算机可用介质。文件被转换为具有正交行和列的二维阵列或表。确定行或列包括头部。用于确定行是否包含头部。对于阵列或表中的每行,对与该行正交的每列的每个单元执行成对比较。对于该行的每个正交列,将成对比较得分或值求和,并且对于行的所有正交列的总和提供该行的得分或值。行得分相对于彼此而进行评估,以确定行中具有头部的可能性。为了确定列是否具有头部,在列及其正交行之间执行类似的计算。
0/0