extract tables from pdf using camelot, if page is image-base, use ocr to extract

Project description

Pdf表格抽取

安装

pip install pdf2tables

简介

camelot是一个很棒的pdf表格数据抽取库，但遗憾的是它不能处理基于图片的pdf表格。pdf2tables是对camelot的一个补充，pdf中能够使用camelot抽取的表格，用camelot抽取，而camelot处理不了的图片，则使用ocr的方式识别处理。

版权

使用方式

注意

opencv2读取或写入图像文件时不支持中文，因此有关文件路径的参数请全部使用中文

环境需求

pdf2tables需要安装以下软件才能正常运行

python3.7
tesseract tesseract下载，安装完毕后进需要将安装目录放入环境变量中，并保证命令行中tesseract -v可以打印出版本信息
阿里云表格识别接口点击此处了解阿里云ocr 表格识别详情

ocr识别时，tesseract与aliyun可以任选其一，tesseract免费但速度较慢，aliyun速度快但需要付费（前500条免费）。

使用方式

# 示例：

from pdf2tables import pdf_tables

imgOcrSettings = {
        'pytesseract_kernel': np.ones((4, 4), np.uint8),
        'pytesseract_bin_threshold': 127,
        'pytesseract_iterations': 1,
        # 单元格面积范围，决定哪些单元格会被选中
        'pytesseract_areaRange': [10000, 100000],
        'pytesseract_isDebug': False,
        # 单元格边框，用来更精确地获取文本
        'pytesseract_border': 10,
        'img_ocr_type': ImgOcrType.Pytesseract,
        'aliyun_appcode': 'b8f41a5f9b664a45af2bc9f58666a17e'
    }

    tables = extract(
        'C:/pdf2tables/test_data/Jan-2010.pdf', lang='eng+tha', **imgOcrSettings)

配置说明

示例imgOcrSettings配置中：

pytesseract前缀的为使用tesseract的配置，在img_ocr_type等于ImgOcrType.Pytesseract时生效。
aliyun前缀的为aliyun配置

pdf2tables会将ocr配置传递到image_tables模块中，配置使用前缀进行区分，如果使用aliyun，则可以忽略所有pytesseract配置，反过来也一样。

返回结果

表格抽取完毕后，返回PageTable列表, PageTable定义如下

@dataclass
class PageTable:
    '''
    表格抽取结果类
    '''

    # 页数
    page: int
    # 数据列表
    datas: []
    # 本页文本
    text: str

Debug

示例imgOcrSettings配置中，如果isDebug设置为True，那么image_tables模块将会显示待分割抓取的图片，并将其保存在硬盘上。

例如：

图片中绿色的边框为单元格，红色圆点为数据数组的标识，如果单元格有未被识别的情况，表现为某些单元格没有绿色边框包围，那么需要调整pytesseract_areaRange参数，让所有的表格都能够被绿色边框包围。

image_tables模块

image_tables模块是使用tesseract抽取图片表格数据的模块，它会查找图片中的表格范围，截取表格为新图片，然后按单元格切分表格，最后将单元格图片中的文字识别出来。识别后的文字会按单元格的顺序存放。

主要方法：

def detect_table(img): 检查表格，返回网格图和网格坐标图
find_table(img, mask_img, save=False, save_dir=None): 查找表格，根据网格图找到表格轮廓，如果save=True，那么会将找到的表格保存为图片
find_joint_points(joint): 查找网格坐标点，根据返回的结果可以产生数据数组
class cutImage(object): 截取单元格的类
- get_text(self): 截取单元格为小图片并将其中的文本

aliyun_tables模块

使用阿里云接口抽取表格数据

Project details

Release history Release notifications | RSS feed

This version

0.3.5

Dec 13, 2019

0.3.4

Dec 11, 2019

0.3.3

Dec 11, 2019

0.3.2

Dec 11, 2019

0.3.1.4

Dec 11, 2019

0.3.1.3

Dec 10, 2019

0.3.1.2

Dec 9, 2019

0.3.1.1

Dec 9, 2019

0.3.1

Dec 6, 2019

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pdf2tables-0.3.5.tar.gz (10.9 kB view details)

Uploaded Dec 13, 2019 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

pdf2tables-0.3.5-py3-none-any.whl (12.9 kB view details)

Uploaded Dec 13, 2019 Python 3

File details

Details for the file pdf2tables-0.3.5.tar.gz.

File metadata

Download URL: pdf2tables-0.3.5.tar.gz
Upload date: Dec 13, 2019
Size: 10.9 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/3.1.0 pkginfo/1.5.0.1 requests/2.22.0 setuptools/42.0.2 requests-toolbelt/0.9.1 tqdm/4.37.0 CPython/3.7.5

File hashes

Hashes for pdf2tables-0.3.5.tar.gz
Algorithm	Hash digest
SHA256	`65375b9337b7cc472c7872286a09fdbf37a42fd81cc793d95771724c1a19cd02`
MD5	`59219c40fed2c1b625735bf6af26b184`
BLAKE2b-256	`0c6d2fe912b577b92bc1a601c71555a3dda3696b6d8cc81ab2f849a31f8c4daf`

See more details on using hashes here.

File details

Details for the file pdf2tables-0.3.5-py3-none-any.whl.

File metadata

Download URL: pdf2tables-0.3.5-py3-none-any.whl
Upload date: Dec 13, 2019
Size: 12.9 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/3.1.0 pkginfo/1.5.0.1 requests/2.22.0 setuptools/42.0.2 requests-toolbelt/0.9.1 tqdm/4.37.0 CPython/3.7.5

File hashes

Hashes for pdf2tables-0.3.5-py3-none-any.whl
Algorithm	Hash digest
SHA256	`281538b5132aaade9b07c0c95059f134e3db5c7a92929291155b9e847a22fef6`
MD5	`81046f73812f5733cee79d7ea2a740d1`
BLAKE2b-256	`8b6d1c81d8c59ab430ce3f022001d9857ffcd6088daa2857fd4ad805c0a28f6a`

See more details on using hashes here.

pdf2tables 0.3.5

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Project description

Pdf表格抽取

安装

简介

版权

使用方式

注意

环境需求

使用方式

配置说明

返回结果

Debug

image_tables模块

aliyun_tables模块

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes