PDF提取表格信息
如果有需求提取PDF表格信息。
-
尝试使用Python,但仅对标准表格+文字排版效果佳;
-
尝试使用AWS识别,但api限制较多,PDF需转格式至图片传回json;
-
尝试使用Acrobat Pro Dc到处为xlsx,再另存为csv,格式较为完整。
Tips:
一般,这样的数据下来,需要进行清理。清理时,可灵活运用筛选,筛选出空行等数据,再进行整理即可。
如果有需求提取PDF表格信息。
尝试使用Python,但仅对标准表格+文字排版效果佳;
尝试使用AWS识别,但api限制较多,PDF需转格式至图片传回json;
尝试使用Acrobat Pro Dc到处为xlsx,再另存为csv,格式较为完整。
Tips:
一般,这样的数据下来,需要进行清理。清理时,可灵活运用筛选,筛选出空行等数据,再进行整理即可。