PDF提取表格信息

如果有需求提取PDF表格信息。

  1. 尝试使用Python,但仅对标准表格+文字排版效果佳;

  2. 尝试使用AWS识别,但api限制较多,PDF需转格式至图片传回json;

  3. 尝试使用Acrobat Pro Dc到处为xlsx,再另存为csv,格式较为完整。

Tips:
一般,这样的数据下来,需要进行清理。清理时,可灵活运用筛选,筛选出空行等数据,再进行整理即可。

本文链接:

https://martin.cool/archives/352.html
1 + 7 =
快来做第一个评论的人吧~