نرم‌افزار هوشمند استخراج اطلاعات از فایل‌های PDF اظهارنامه

These details have not been verified by PyPI

Project links

Project description

📄 PDF OCR - استخراج اطلاعات از فایل‌های PDF اظهارنامه

Python PyQt6 OpenAI License

نرم‌افزار هوشمند استخراج اطلاعات از فایل‌های PDF اظهارنامه با استفاده از هوش مصنوعی

🚀 دانلود • 📖 راهنما • ⚙️ تنظیمات • 📊 آمار

🎯 ویژگی‌های کلیدی

✅ استخراج هوشمند اطلاعات از فایل‌های PDF اظهارنامه
✅ رابط کاربری گرافیکی زیبا و کاربرپسند با PyQt6
✅ پشتیبانی از ChatGPT API (GPT-3.5 و GPT-4)
✅ تبدیل تاریخ میلادی به شمسی خودکار
✅ پردازش دسته‌ای فایل‌ها برای کاهش هزینه
✅ خروجی Excel با فرمت استاندارد
✅ آمار و گزارش دقیق از مصرف API
✅ بهینه‌سازی هزینه با کاهش مصرف توکن
✅ فونت‌های فارسی محلی (Segoe UI) برای سازگاری کامل

📋 اطلاعات استخراج شده

فیلد	توضیحات
ارز و مبلغ کل فاکتور	مبلغ کل فاکتور با ارز مربوطه

🚀 نصب و راه‌اندازی

پیش‌نیازها

Python 3.8 یا بالاتر
کلید API OpenAI

مراحل نصب

کلون کردن مخزن

git clone https://github.com/seyedmahdivakhshoori/pdf-ocr.git
cd pdf-ocr

ایجاد محیط مجازی

python -m venv venv
# Windows
venv\Scripts\activate
# Linux/Mac
source venv/bin/activate

نصب وابستگی‌ها

pip install -r requirements.txt

دریافت کلید API

به OpenAI Platform بروید
حساب کاربری ایجاد کنید
از بخش API Keys، یک کلید جدید ایجاد کنید

اجرای برنامه

python pdf_ocr.py

📖 راهنمای استفاده

1. تنظیمات اولیه

برنامه را اجرا کنید
به تب تنظیمات بروید
کلید API خود را وارد کنید
مدل مورد نظر را انتخاب کنید (GPT-3.5 یا GPT-4)
تنظیمات را ذخیره کنید

2. آپلود فایل‌ها

به تب صفحه اصلی برگردید
نوع فایل‌ها را انتخاب کنید (واردات/صادرات)
روی انتخاب فایل‌های PDF کلیک کنید
فایل‌های اظهارنامه را انتخاب کنید

3. پردازش

روی شروع پردازش کلیک کنید
منتظر بمانید تا پردازش کامل شود
نتایج در جدول نمایش داده می‌شود

4. خروجی

روی خروجی Excel کلیک کنید
مسیر ذخیره فایل را انتخاب کنید
فایل Excel با اطلاعات استخراج شده ذخیره می‌شود

⚙️ تنظیمات

مدل‌های پشتیبانی شده

GPT-3.5-turbo: سریع و اقتصادی
GPT-4: دقیق‌تر اما گران‌تر

بهینه‌سازی هزینه

پردازش دسته‌ای فایل‌ها
کاهش تعداد توکن‌های مصرفی
فیلتر کردن متن‌های غیرضروری

📊 آمار و گزارش

برنامه آمار دقیقی از موارد زیر ارائه می‌دهد:

کل فایل‌های پردازش شده
تعداد توکن‌های مصرفی
هزینه کل API
آمار روزانه
میانگین توکن‌ها

🛠️ ساختار پروژه

pdf-ocr/
├── pdf_ocr.py              # فایل اصلی برنامه
├── create_sample_pdf.py    # ایجاد فایل PDF نمونه
├── coords_config.json      # تنظیمات مختصات
├── requirements.txt        # وابستگی‌های Python
├── README.md              # راهنمای پروژه
├── .gitignore             # فایل‌های نادیده گرفته شده
├── fonts/                 # فونت‌های فارسی
│   ├── segoeui.ttf        # Segoe UI Regular
│   ├── segoeuib.ttf       # Segoe UI Bold
│   ├── segoeuii.ttf       # Segoe UI Italic
│   └── segoeuiz.ttf       # Segoe UI Bold Italic
└── your_first_sample.pdf  # فایل PDF نمونه

🔧 کلاس‌های اصلی

PersianDateConverter

تبدیل تاریخ میلادی به شمسی با دقت بالا

SettingsManager

مدیریت تنظیمات برنامه و آمار استفاده

PDFProcessor

پردازش فایل‌های PDF در thread جداگانه

MainWindow

رابط کاربری اصلی برنامه

📝 نمونه کد

ایجاد فایل PDF نمونه

python create_sample_pdf.py

اجرای برنامه اصلی

python pdf_ocr.py

🐛 عیب‌یابی

مشکلات رایج

خطای کلید API
- کلید API را بررسی کنید
- اطمینان حاصل کنید که اعتبار کافی دارید
خطای نصب PyQt6
```
pip install PyQt6 --upgrade
```
مشکل فونت فارسی
- فونت Segoe UI نصب باشد
- سیستم عامل از RTL پشتیبانی کند

🤝 مشارکت

برای مشارکت در پروژه:

Fork کنید
Branch جدید ایجاد کنید (git checkout -b feature/AmazingFeature)
تغییرات را commit کنید (git commit -m 'Add some AmazingFeature')
Push کنید (git push origin feature/AmazingFeature)
Pull Request ایجاد کنید

📄 لایسنس

این پروژه تحت لایسنس MIT منتشر شده است. برای اطلاعات بیشتر فایل LICENSE را مطالعه کنید.

👨‍💻 توسعه‌دهنده

Seyed Mahdi Vakhshoori - seyedmahdivakhshoori@gmail.com

GitHub: @seyedmahdivakhshoori
Instagram: @mahdi_vakhshoori

🙏 تشکر

OpenAI برای ارائه API
PyQt6 برای رابط کاربری
PyPDF2 برای پردازش PDF

📞 پشتیبانی

اگر سوال یا مشکلی دارید:

ایجاد Issue
ایمیل: seyedmahdivakhshoori@gmail.com

⭐ اگر این پروژه برایتان مفید بود، لطفاً ستاره بدهید!

# pdf-ocr

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

This version

2.0.0

Jul 8, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pdf_ocr-2.0.0.tar.gz (1.7 MB view details)

Uploaded Jul 8, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

pdf_ocr-2.0.0-py3-none-any.whl (1.7 MB view details)

Uploaded Jul 8, 2025 Python 3

File details

Details for the file pdf_ocr-2.0.0.tar.gz.

File metadata

Download URL: pdf_ocr-2.0.0.tar.gz
Upload date: Jul 8, 2025
Size: 1.7 MB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for pdf_ocr-2.0.0.tar.gz
Algorithm	Hash digest
SHA256	`85558f110c4ae4ee2279919e060c140d7d56b277e986c0de8d7682dfec3a89fb`
MD5	`d25fb4feeb628bb54847a3883e40951a`
BLAKE2b-256	`21cb4f76a3a93cc8f4d45c7a21598f7e355fe671cc33c99274eefae88838437a`

See more details on using hashes here.

File details

Details for the file pdf_ocr-2.0.0-py3-none-any.whl.

File metadata

Download URL: pdf_ocr-2.0.0-py3-none-any.whl
Upload date: Jul 8, 2025
Size: 1.7 MB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for pdf_ocr-2.0.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`f01fc29a5e7ca8c88e6188f7754896acc257780719cac34184b7986d8d456745`
MD5	`4f32cf5048c1ee817b0d2ab8985b49de`
BLAKE2b-256	`74857664a0c1e5c36f17e02d4a6dd5d4742223214e896f8306131ddbeff7d783`

See more details on using hashes here.

pdf-ocr 2.0.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

📄 PDF OCR - استخراج اطلاعات از فایل‌های PDF اظهارنامه

🎯 ویژگی‌های کلیدی

📋 اطلاعات استخراج شده

🚀 نصب و راه‌اندازی

پیش‌نیازها

مراحل نصب

📖 راهنمای استفاده

1. تنظیمات اولیه

2. آپلود فایل‌ها

3. پردازش

4. خروجی

⚙️ تنظیمات

مدل‌های پشتیبانی شده

بهینه‌سازی هزینه

📊 آمار و گزارش

🛠️ ساختار پروژه

🔧 کلاس‌های اصلی

PersianDateConverter

SettingsManager

PDFProcessor

MainWindow

📝 نمونه کد

ایجاد فایل PDF نمونه

اجرای برنامه اصلی

🐛 عیب‌یابی

مشکلات رایج

🤝 مشارکت

📄 لایسنس

👨‍💻 توسعه‌دهنده

🙏 تشکر

📞 پشتیبانی

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes