OCRmyPDF-AIH — batch PDF OCR pipeline with Tesseract/Calamari backends, based on OCRmyPDF

These details have not been verified by PyPI

Project links

Project description

OCRmyPDF-AIH

批量 PDF OCR 处理管线，支持 Tesseract / Calamari 双后端

项目定位

OCRmyPDF-AIH 是 AIH-Infra（人文学科人工智能基础设施）的 OCR 处理组件，基于 OCRmyPDF v17.2.0 构建。

┌─────────────────────────────────────────────────┐
│  应用层                                          │
│  朴素 RAG → Graph RAG → Agent RAG               │
├─────────────────────────────────────────────────┤
│  0.5 层：經緯·Contexture                         │
│  页码锚点 · 边注识别 · 行内注 · 模板 · 配置共享   │
├─────────────────────────────────────────────────┤
│  OCR 层：OCRmyPDF-AIH  ← 本项目                 │
│  Tesseract · Calamari · 批量处理 · Web UI        │
├─────────────────────────────────────────────────┤
│  基础层：PDF 解析                                │
│  Ghostscript · pdftext · pypdfium2              │
└─────────────────────────────────────────────────┘

OCRmyPDF-AIH 为扫描版 PDF 添加可搜索的 OCR 文字层，输出标准 PDF/A 文件。这些文件随后可被經緯·Contexture 进一步处理为带页码锚点的结构化 Markdown，进入学术 RAG 检索流程。

相比上游 OCRmyPDF 的增强

特性	OCRmyPDF	OCRmyPDF-AIH
OCR 后端	Tesseract	Tesseract + Calamari GPU
使用方式	CLI	CLI + Streamlit Web UI
批量处理	逐文件命令行	Web UI 多文件批量 + ZIP 打包下载
进度显示	文件级	页面级实时进度
语言选择	手动指定	自动检测已安装语言包
参数调优	CLI 参数	可视化面板（OCR 模式、预处理、输出格式）

快速开始

环境要求

Python 3.11 / 3.12 / 3.13
Windows 10/11、macOS 或 Linux
Ghostscript、Tesseract OCR

一键安装

Windows： 双击 install.bat

macOS：

chmod +x install.command start.command install.sh start.sh
# 然后双击 install.command

Linux：

chmod +x install.sh start.sh
./install.sh

安装脚本会自动创建虚拟环境、安装依赖，并尝试自动安装 Tesseract（失败时提示手动安装）。

pip 安装

pip install ocrmypdf-aih-infra

启动 Web UI

Windows： 双击 start.bat

macOS / Linux： ./start.sh

浏览器访问 http://localhost:6106

Calamari GPU 后端

OCRmyPDF-AIH 支持通过远程 API 调用 Calamari OCR GPU 服务，适用于需要高精度历史文献识别的场景。

在 Web UI 侧边栏选择 Calamari 后端，填入服务地址即可使用。

上游功能

OCRmyPDF-AIH 完整保留了 OCRmyPDF 的所有功能：

生成可搜索的 PDF/A 文件
支持 100+ 语言（Tesseract 语言包）
页面旋转校正、倾斜校正、图像清理
多核并行处理
无损 OCR 层注入
PDF 图像优化
插件系统

CLI 用法与上游完全兼容：

ocrmypdf -l chi_sim+eng --deskew input.pdf output.pdf

详细文档参见 OCRmyPDF 官方文档。

关于 AIH-Infra

AIH-Infra（人文学科人工智能基础设施） 致力于为人文学科研究者提供可追溯、可验证、可传承的 AI 工具链。

材料线：經緯·Contexture（文献数字化与结构化）
OCR 层：OCRmyPDF-AIH（本项目，PDF OCR 处理）
系统线：学术 RAG 知识库与检索系统

核心原则：每一条 AI 生成的回答，都必须能够返回原书的那一页。

许可证

本项目基于 Mozilla Public License 2.0 (MPL-2.0) 发布，与上游 OCRmyPDF 保持一致。

致谢

OCRmyPDF — James R. Barlow 及贡献者
Tesseract OCR
Calamari OCR

作者

Güriedrich & Baireinhold — AIH-Infra

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

This version

0.1.0

Feb 20, 2026

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

ocrmypdf_aih_infra-0.1.0.tar.gz (10.1 MB view details)

Uploaded Feb 20, 2026 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

ocrmypdf_aih_infra-0.1.0-py3-none-any.whl (490.5 kB view details)

Uploaded Feb 20, 2026 Python 3

File details

Details for the file ocrmypdf_aih_infra-0.1.0.tar.gz.

File metadata

Download URL: ocrmypdf_aih_infra-0.1.0.tar.gz
Upload date: Feb 20, 2026
Size: 10.1 MB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.13.9

File hashes

Hashes for ocrmypdf_aih_infra-0.1.0.tar.gz
Algorithm	Hash digest
SHA256	`4d66d2788ad56a1e89de2d4b76d682bd8065eb423bfff58fa7605e763a03449c`
MD5	`18e9a5329ae86f09f835a7bd102838c1`
BLAKE2b-256	`bf8e42f07825e48bdb3bae2b598737e41a955c26ef84742d3b0bd7d59898907c`

See more details on using hashes here.

File details

Details for the file ocrmypdf_aih_infra-0.1.0-py3-none-any.whl.

File metadata

Download URL: ocrmypdf_aih_infra-0.1.0-py3-none-any.whl
Upload date: Feb 20, 2026
Size: 490.5 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.2.0 CPython/3.13.9

File hashes

Hashes for ocrmypdf_aih_infra-0.1.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`0dfc0cc7544bb7aa702e50f1886ec973cc3dcb6c4c028d91fa3f3b17e9a28fe4`
MD5	`d41b7d2d54611499d88108e7f1089678`
BLAKE2b-256	`af05bcab2bb05403714cc3f04fb9b0a7cb486e13b051de971d5b33c95e8ca8fe`

See more details on using hashes here.

ocrmypdf-aih-infra 0.1.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

OCRmyPDF-AIH

项目定位

相比上游 OCRmyPDF 的增强

快速开始

环境要求

一键安装

pip 安装

启动 Web UI

Calamari GPU 后端

上游功能

关于 AIH-Infra

许可证

致谢

作者

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes