python提取pdf文件中的表格

在做pdf文字抽取时，pdfplumber会与pdfminer3k有版本冲突，而且接口的封装性、抽取效果也没有pdfplumber好，所以强烈建议使用pdfplumber，抛弃pdfminer3k。

1、工具

pdfplumber

pip install pdfplumber

2、调用方法

extract_tables()
extract_table()

3、详细使用

extract_tables()：将表格输出为json格式，默认为一个表格整体

import pdfplumber

with pdfplumber.open('xxxx.pdf') as pdf:
    page=pdf.pages[16] #提取pdf第17页中的表格
    for row in page.extract_tables():
        print(row)

效果：

extract_table()：将表格的每一行默认为一个独立表格

import pdfplumber

with pdfplumber.open('xxxx.pdf') as pdf:
    page=pdf.pages[16] #提取pdf第17页中的表格
    for row in page.extract_table():
        print(row)

提取效果：

拓展：

还可以将提取的Excel保存为csv文件

版权声明：本文来源CSDN，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
原文链接：https://blog.csdn.net/weixin_38664232/article/details/102729258
站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。

发表于 2020-03-08 10:10:29
阅读 ( 1017 )
分类：

python提取pdf文件中的表格

1、工具

2、调用方法

3、详细使用

拓展：

你可能感兴趣的文章

精选的优质文章

0 条评论

官方社群

GO教程

推荐文章

猜你喜欢

随便看看