Awesome OCR toolkits based on PaddlePaddle(8.6M ultra-lightweight pre-trained model, support training and deployment among server, mobile, embedded and IoT devices)
Project description
English | 简体中文
简介
PaddleOCR 旨在打造一套丰富、领先、且实用的 OCR 工具库,助力开发者训练出更好的模型,并应用落地。
🚀 社区
PaddleOCR 由 PMC 监督。Issues 和 PRs 将在尽力的基础上进行审查。欲了解 PaddlePaddle 社区的完整概况,请访问 community。
⚠️注意:Issues模块仅用来报告程序🐞Bug,其余提问请移步Discussions模块提问。如所提Issue不是Bug,会被移到Discussions模块,敬请谅解。
📣 近期更新(more)
-
🔥🔥《PaddleX文档信息个性化抽取新升级》,PP-ChatOCRv3创新性提供了基于数据融合技术的OCR模型二次开发功能,具备更强的模型微调能力。百万级高质量通用OCR文本识别数据,按特定比例自动融入垂类模型训练数据,破解产业垂类模型训练导致通用文本识别能力减弱难题。适用自动化办公、金融风控、医疗健康、教育出版、法律党政等产业实际场景。10月17日(周四)19:00直播为您详细解读数据融合技术以及如何利用提示词工程实现更好的信息抽取效果。 报名链接
-
🔥2024.10.1 添加OCR领域低代码全流程开发能力:
-
飞桨低代码开发工具PaddleX,依托于PaddleOCR的先进技术,支持了OCR领域的低代码全流程开发能力:
-
支持文档场景信息抽取v3(PP-ChatOCRv3-doc)、基于RT-DETR的高精度版面区域检测模型和PicoDet的高效率版面区域检测模型、高精度表格结构识别模型SLANet_Plus、文本图像矫正模型UVDoc、公式识别模型LatexOCR、基于PP-LCNet的文档图像方向分类模型
-
-
🔥2024.7 添加 PaddleOCR 算法模型挑战赛冠军方案:
- 赛题一:OCR 端到端识别任务冠军方案——场景文本识别算法-SVTRv2;
- 赛题二:通用表格识别任务冠军方案——表格识别算法-SLANet-LCNetV2。
🌟 特性
支持多种 OCR 相关前沿算法,在此基础上打造产业级特色模型PP-、PP-Structure和PP-ChatOCR,并打通数据生产、模型训练、压缩、预测部署全流程。
⚡ 快速开始
🔥 低代码全流程开发
📝 文档
完整文档请移步:docs
📚《动手学 OCR》电子书
🎖 贡献者
⭐️ Star
许可证书
本项目的发布受 Apache License Version 2.0 许可认证。
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for paddleocr-2.9.1-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 73fa76fa3be118d8469141ad72b2665f30795386bdd87b2bde5ff7ee3069e1be |
|
MD5 | 1d200e76246a6c3527d1acd5ac405c05 |
|
BLAKE2b-256 | ff92e92fd1bc67c562b653f0eff37379e96b77c7e318c90a637e6f586d4eb532 |