Python3 package to extract text information from images

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

last-release last-commit

🛀🏻 在线Demo | 💬 交流群

English | 中文

Pix2Text

Pix2Text 期望成为 Mathpix 的免费开源 Python 替代工具，完成与 Mathpix 类似的功能。当前 Pix2Text 可识别截屏图片中的数学公式、英文、或者中文文字。它的流程如下：

Pix2Text首先利用图片分类模型来判断图片类型，然后基于不同的图片类型，把图片交由不同的识别系统进行文字识别：

如果图片类型为 formula ，表示图片为数学公式，此时调用 LaTeX-OCR 识别图片中的数学公式，返回其Latex表示；
如果图片类型为english，表示图片中包含的是英文文字，此时使用 CnOCR 中的英文模型识别其中的英文文字；英文模型对于纯英文的文字截图，识别效果比通用模型好；
如果图片类型为general，表示图片中包含的是常见文字，此时使用 CnOCR 中的通用模型识别其中的中或英文文字。

后续图片类型会依据应用需要做进一步的细分。

欢迎扫码加小助手为好友，备注 p2t，小助手会定期统一邀请大家入群：

作者也维护 知识星球 P2T/CnOCR/CnSTD私享群 ，这里面的提问会较快得到作者的回复，欢迎加入。知识星球私享群也会陆续发布一些P2T/CnOCR/CnSTD相关的私有资料，包括更详细的训练教程，未公开的模型，不同应用场景的调用代码，使用过程中遇到的难题解答等。本群也会发布OCR/STD相关的最新研究资料。

使用说明

调用很简单，以下是示例：

from pix2text import Pix2Text

img_fp = './docs/examples/formula.jpg'
p2t = Pix2Text()
out_text = p2t(img_fp)  # 也可以使用 `p2t.recognize(img_fp)` 获得相同的结果
print(out_text)

返回结果 out_text 是个 dict，其中 key image_type 表示图片分类类别，而 key text 表示识别的结果。

以下是一些示例图片的识别结果：

图片	Pix2Text识别结果
	{"image_type": "formula", "text": "\\mathcal{L}_{\\mathrm{eyelid}}~\\longrightarrow" "\\sum_{t=1}^{T}\\sum_{v=1}^{V}\\mathcal{N}" "\\cal{M}_{v}^{\\mathrm{(eyelid}})" "\\left(\\left\|\\left\|\\hat{h}_{t,v}\\,-\\," "\\mathcal{x}_{t,v}\\right\|\\right\|^{2}\\right)"}
	{"image_type": "english", "text": "python scripts/screenshot_daemon_with_server\n" "2-get_model:178usemodel:/Users/king/.cr\n" "enet_lite_136-fc-epoch=039-complete_match_er"}
	{"image_type": "general", "text": "618\n开门红提前购\n很贵\n买贵返差\n终于降价了\n" "100%桑蚕丝\n要买趁早\n今日下单188元\n仅限一天"}

模型下载

安装好 Pix2Text 后，首次使用时系统会自动下载 模型文件，并存于 ~/.pix2text目录（Windows下默认路径为 C:\Users\<username>\AppData\Roaming\pix2text）。

Note

如果已成功运行上面的示例，说明模型已完成自动下载，可忽略本节后续内容。

对于分类模型，系统会自动下载模型zip文件并对其解压，然后把解压后的模型相关目录放于~/.pix2text目录中。如果系统无法自动成功下载zip文件，则需要手动从 cnstd-cnocr-models/pix2text 下载此zip文件并把它放于 ~/.pix2text目录。如果下载太慢，也可以从百度云盘下载，提取码为 p2t0。

对于 LaTeX-OCR ，系统同样会自动下载模型文件并把它们存放于~/.pix2text/formula目录中。如果系统无法自动成功下载这些模型文件，则需从百度云盘下载文件 weights.pth 和 image_resizer.pth，并把它们存放于~/.pix2text/formula目录中；提取码为 p2t0。

安装

嗯，顺利的话一行命令即可。

pip install pix2text

安装速度慢的话，可以指定国内的安装源，如使用豆瓣源：

pip install pix2text -i https://pypi.doubanio.com/simple

如果是初次使用OpenCV，那估计安装都不会很顺利，bless。

Pix2Text 主要依赖 CnOCR>=2.2.2 ，以及 LaTeX-OCR 。如果安装过程遇到问题，也可参考它们的安装说明文档。

Warning

如果电脑中从未安装过 PyTorch，OpenCV python包，初次安装可能会遇到不少问题，但一般都是常见问题，可以自行百度/Google解决。

接口说明

类初始化

主类为 Pix2Text ，其初始化函数如下：

class Pix2Text(object):
    def __init__(
        self,
        *,
        clf_config: Dict[str, Any] = None,
        general_config: Dict[str, Any] = None,
        english_config: Dict[str, Any] = None,
        formula_config: Dict[str, Any] = None,
        thresholds: Dict[str, Any] = None,
        device: str = 'cpu',  # ['cpu', 'cuda', 'gpu']
        **kwargs,
    ):

其中的各参数说明如下：

clf_config (dict): 分类模型对应的配置信息；默认为 None，表示使用默认配置：

{
     'base_model_name': 'mobilenet_v2',
     'categories': IMAGE_TYPES,
     'transform_configs': {
         'crop_size': [150, 450],
         'resize_size': 160,
         'resize_max_size': 1000,
     },
     'model_dir': Path(data_dir()) / 'clf',
     'model_fp': None  # 如果指定，直接使用此模型文件
}

general_config (dict): 通用模型对应的配置信息；默认为 None，表示使用默认配置：
```
{}
```
english_config (dict): 英文模型对应的配置信息；默认为 None，表示使用默认配置：
```
{'det_model_name': 'en_PP-OCRv3_det', 'rec_model_name': 'en_PP-OCRv3'}
```

formula_config (dict): 公式识别模型对应的配置信息；默认为 None，表示使用默认配置：

{
    'config': LATEX_CONFIG_FP,
    'checkpoint': Path(data_dir()) / 'formular' / 'weights.pth',
    'no_resize': False
}

thresholds (dict): 识别阈值对应的配置信息；默认为 None，表示使用默认配置：

{
    'formula2general': 0.65,  # 如果识别为 `formula` 类型，但得分小于此阈值，则改为 `general` 类型
    'english2general': 0.75,  # 如果识别为 `english` 类型，但得分小于此阈值，则改为 `general` 类型
}

device (str): 使用什么资源进行计算，支持 ['cpu', 'cuda', 'gpu']；默认为 cpu
**kwargs (): 预留的其他参数；目前未被使用

识别类函数

通过调用类 Pix2Text 的类函数 .recognize() 完成对指定图片的文字或Latex识别。类函数 .recognize() 说明如下：

    def recognize(self, img: Union[str, Path, Image.Image]) -> Dict[str, Any]:
        """

        Args:
            img (str or Image.Image): an image path, or `Image.Image` loaded by `Image.open()`

        Returns: a dict, with keys:
           `image_type`: 图像类别；
           `text`: 识别出的文字或Latex公式

        """

其中的输入参数说明如下：

img (str or Image.Image)：待识别图片的路径，或者利用 Image.open() 已读入的图片 Image 。

返回结果说明如下：

image_type：识别出的图像类别；取值为 formula、english 或者 general ；
text：识别出的文字或Latex公式。

如前面给出的一个示例结果：

{"image_type": "general",
 "text": "618\n开门红提前购\n很贵\n买贵返差\n终于降价了\n"
          "100%桑蚕丝\n要买趁早\n今日下单188元\n仅限一天"}

Pix2Text 类也实现了 __call__() 函数，其功能与 .recognize() 函数完全相同。所以才会有以下的调用方式：

from pix2text import Pix2Text

img_fp = './docs/examples/formula.jpg'
p2t = Pix2Text()
out_text = p2t(img_fp)  # 也可以使用 `p2t.recognize(img_fp)` 获得相同的结果
print(out_text)

HTTP服务

Pix2Text 加入了基于 FastAPI 的HTTP服务。开启服务需要安装几个额外的包，可以使用以下命令安装：

pip install pix2text[serve]

安装完成后，可以通过以下命令启动HTTP服务（-p 后面的数字是端口，可以根据需要自行调整）：

p2t serve -p 8503

服务开启后，可以使用以下方式调用服务。

命令行

比如待识别文件为 docs/examples/english.jpg，如下使用 curl 调用服务：

> curl -F image=@docs/examples/english.jpg http://0.0.0.0:8503/pix2text

Python

使用如下方式调用服务：

import requests

image_fp = 'docs/examples/english.jpg'
r = requests.post(
    'http://0.0.0.0:8503/pix2text', files={'image': (image_fp, open(image_fp, 'rb'), 'image/png')},
)
out = r.json()['results']
print(out)

其他语言

请参照 curl 的调用方式自行实现。

脚本运行

脚本 scripts/screenshot_daemon.py 实现了自动对截屏图片调用 Pixe2Text 进行公式或者文字识别。这个功能是如何实现的呢？

以下是具体的运行流程（请先安装好 Pix2Text）：

找一个喜欢的截屏软件，这个软件只要支持把截屏图片存储在指定文件夹即可。比如Mac下免费的 Xnip 就很好用。
除了安装Pix2Text外，还需要额外安装一个Python包 pyperclip，利用它把识别结果复制进系统的剪切板：
```
$ pip install pyperclip
```
下载脚本文件 scripts/screenshot_daemon.py 到本地，编辑此文件 "SCREENSHOT_DIR" 所在行（第 17 行），把路径改为你的截屏图片所存储的目录。
运行此脚本：
```
$ python scripts/screenshot_daemon.py
```

好了，现在就用你的截屏软件试试效果吧。截屏后的识别结果会写入当前文件夹的 out-text.html 文件，只要在浏览器中打开此文件即可看到效果。

更详细使用介绍可参考视频：《Pix2Text: 替代 Mathpix 的免费 Python 开源工具》。

Note

感谢我的同事帮忙完成了此页面的大部分工作。这个页面还有很大改进空间，欢迎对前端熟悉的朋友帮忙提PR优化此页面。

给作者来杯咖啡

开源不易，如果此项目对您有帮助，可以考虑给作者加点油🥤，鼓鼓气💪🏻 。

官方代码库：https://github.com/breezedeus/pix2text。

Project details

These details have not been verified by PyPI

Project links

Homepage

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

1.1.0.5

May 27, 2024

1.1.0.4

May 20, 2024

1.1.0.3

May 19, 2024

1.1.0.2

May 10, 2024

1.1.0.1

Apr 30, 2024

1.1

Apr 28, 2024

1.0.2.3

Mar 29, 2024

1.0.2.2

Mar 18, 2024

1.0.2.1

Mar 15, 2024

1.0.2

Mar 14, 2024

1.0.1

Mar 3, 2024

1.0

Feb 26, 2024

0.3

Jan 10, 2024

0.2.3.3

Dec 21, 2023

0.2.3.2

Sep 10, 2023

0.2.3.1

Jul 14, 2023

0.2.3

Jul 3, 2023

0.2.2.1

Feb 19, 2023

0.2.2

Feb 19, 2023

0.2.1 yanked

Feb 19, 2023

Reason this release was yanked:

bug: including `breakpoint()`

0.2

Feb 3, 2023

This version

0.1.1

Oct 21, 2022

0.1

Sep 10, 2022

0.0.1

Sep 7, 2022

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pix2text-0.1.1.tar.gz (34.1 kB view hashes)

Uploaded Oct 21, 2022 Source

Built Distribution

pix2text-0.1.1-py3-none-any.whl (36.5 kB view hashes)

Uploaded Oct 21, 2022 Python 3

Hashes for pix2text-0.1.1.tar.gz

Hashes for pix2text-0.1.1.tar.gz
Algorithm	Hash digest
SHA256	`edf6a387d7933123dd8f79f6b3a2ac78fdc89fe579ee8a7722061904583ea98c`
MD5	`f9eb9ebaf116b5550d293bcf1386b0a2`
BLAKE2b-256	`e562926b211482acab5838fd3edea000645402976e83064527ec3b45bdd97229`

Hashes for pix2text-0.1.1-py3-none-any.whl

Hashes for pix2text-0.1.1-py3-none-any.whl
Algorithm	Hash digest
SHA256	`ab9e28f6983a32711044fed43a0efb042831387207d5554cbafb7240f9abc319`
MD5	`09a6882897b4d00a6eb66ca26da56334`
BLAKE2b-256	`243cbc815e4557bc298fd42d67fe481dc214a216e8033313cbee2757d09045d4`