Skip to main content

نرم‌افزار هوشمند استخراج اطلاعات از فایل‌های PDF اظهارنامه

Project description

📄 PDF OCR - استخراج اطلاعات از فایل‌های PDF اظهارنامه

Python PyQt6 OpenAI License

نرم‌افزار هوشمند استخراج اطلاعات از فایل‌های PDF اظهارنامه با استفاده از هوش مصنوعی

🚀 دانلود📖 راهنما⚙️ تنظیمات📊 آمار


🎯 ویژگی‌های کلیدی

  • استخراج هوشمند اطلاعات از فایل‌های PDF اظهارنامه
  • رابط کاربری گرافیکی زیبا و کاربرپسند با PyQt6
  • پشتیبانی از ChatGPT API (GPT-3.5 و GPT-4)
  • تبدیل تاریخ میلادی به شمسی خودکار
  • پردازش دسته‌ای فایل‌ها برای کاهش هزینه
  • خروجی Excel با فرمت استاندارد
  • آمار و گزارش دقیق از مصرف API
  • بهینه‌سازی هزینه با کاهش مصرف توکن
  • فونت‌های فارسی محلی (Segoe UI) برای سازگاری کامل

📋 اطلاعات استخراج شده

فیلد توضیحات
ارز و مبلغ کل فاکتور مبلغ کل فاکتور با ارز مربوطه

🚀 نصب و راه‌اندازی

پیش‌نیازها

  • Python 3.8 یا بالاتر
  • کلید API OpenAI

مراحل نصب

  1. کلون کردن مخزن
git clone https://github.com/seyedmahdivakhshoori/pdf-ocr.git
cd pdf-ocr
  1. ایجاد محیط مجازی
python -m venv venv
# Windows
venv\Scripts\activate
# Linux/Mac
source venv/bin/activate
  1. نصب وابستگی‌ها
pip install -r requirements.txt
  1. دریافت کلید API
  • به OpenAI Platform بروید
  • حساب کاربری ایجاد کنید
  • از بخش API Keys، یک کلید جدید ایجاد کنید
  1. اجرای برنامه
python pdf_ocr.py

📖 راهنمای استفاده

1. تنظیمات اولیه

  • برنامه را اجرا کنید
  • به تب تنظیمات بروید
  • کلید API خود را وارد کنید
  • مدل مورد نظر را انتخاب کنید (GPT-3.5 یا GPT-4)
  • تنظیمات را ذخیره کنید

2. آپلود فایل‌ها

  • به تب صفحه اصلی برگردید
  • نوع فایل‌ها را انتخاب کنید (واردات/صادرات)
  • روی انتخاب فایل‌های PDF کلیک کنید
  • فایل‌های اظهارنامه را انتخاب کنید

3. پردازش

  • روی شروع پردازش کلیک کنید
  • منتظر بمانید تا پردازش کامل شود
  • نتایج در جدول نمایش داده می‌شود

4. خروجی

  • روی خروجی Excel کلیک کنید
  • مسیر ذخیره فایل را انتخاب کنید
  • فایل Excel با اطلاعات استخراج شده ذخیره می‌شود

⚙️ تنظیمات

مدل‌های پشتیبانی شده

  • GPT-3.5-turbo: سریع و اقتصادی
  • GPT-4: دقیق‌تر اما گران‌تر

بهینه‌سازی هزینه

  • پردازش دسته‌ای فایل‌ها
  • کاهش تعداد توکن‌های مصرفی
  • فیلتر کردن متن‌های غیرضروری

📊 آمار و گزارش

برنامه آمار دقیقی از موارد زیر ارائه می‌دهد:

  • کل فایل‌های پردازش شده
  • تعداد توکن‌های مصرفی
  • هزینه کل API
  • آمار روزانه
  • میانگین توکن‌ها

🛠️ ساختار پروژه

pdf-ocr/
├── pdf_ocr.py              # فایل اصلی برنامه
├── create_sample_pdf.py    # ایجاد فایل PDF نمونه
├── coords_config.json      # تنظیمات مختصات
├── requirements.txt        # وابستگی‌های Python
├── README.md              # راهنمای پروژه
├── .gitignore             # فایل‌های نادیده گرفته شده
├── fonts/                 # فونت‌های فارسی
│   ├── segoeui.ttf        # Segoe UI Regular
│   ├── segoeuib.ttf       # Segoe UI Bold
│   ├── segoeuii.ttf       # Segoe UI Italic
│   └── segoeuiz.ttf       # Segoe UI Bold Italic
└── your_first_sample.pdf  # فایل PDF نمونه

🔧 کلاس‌های اصلی

PersianDateConverter

تبدیل تاریخ میلادی به شمسی با دقت بالا

SettingsManager

مدیریت تنظیمات برنامه و آمار استفاده

PDFProcessor

پردازش فایل‌های PDF در thread جداگانه

MainWindow

رابط کاربری اصلی برنامه

📝 نمونه کد

ایجاد فایل PDF نمونه

python create_sample_pdf.py

اجرای برنامه اصلی

python pdf_ocr.py

🐛 عیب‌یابی

مشکلات رایج

  1. خطای کلید API

    • کلید API را بررسی کنید
    • اطمینان حاصل کنید که اعتبار کافی دارید
  2. خطای نصب PyQt6

    pip install PyQt6 --upgrade
    
  3. مشکل فونت فارسی

    • فونت Segoe UI نصب باشد
    • سیستم عامل از RTL پشتیبانی کند

🤝 مشارکت

برای مشارکت در پروژه:

  1. Fork کنید
  2. Branch جدید ایجاد کنید (git checkout -b feature/AmazingFeature)
  3. تغییرات را commit کنید (git commit -m 'Add some AmazingFeature')
  4. Push کنید (git push origin feature/AmazingFeature)
  5. Pull Request ایجاد کنید

📄 لایسنس

این پروژه تحت لایسنس MIT منتشر شده است. برای اطلاعات بیشتر فایل LICENSE را مطالعه کنید.

👨‍💻 توسعه‌دهنده

Seyed Mahdi Vakhshoori - seyedmahdivakhshoori@gmail.com

🙏 تشکر

  • OpenAI برای ارائه API
  • PyQt6 برای رابط کاربری
  • PyPDF2 برای پردازش PDF

📞 پشتیبانی

اگر سوال یا مشکلی دارید:


⭐ اگر این پروژه برایتان مفید بود، لطفاً ستاره بدهید!

# pdf-ocr

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

pdf_ocr-2.0.0.tar.gz (1.7 MB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

pdf_ocr-2.0.0-py3-none-any.whl (1.7 MB view details)

Uploaded Python 3

File details

Details for the file pdf_ocr-2.0.0.tar.gz.

File metadata

  • Download URL: pdf_ocr-2.0.0.tar.gz
  • Upload date:
  • Size: 1.7 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for pdf_ocr-2.0.0.tar.gz
Algorithm Hash digest
SHA256 85558f110c4ae4ee2279919e060c140d7d56b277e986c0de8d7682dfec3a89fb
MD5 d25fb4feeb628bb54847a3883e40951a
BLAKE2b-256 21cb4f76a3a93cc8f4d45c7a21598f7e355fe671cc33c99274eefae88838437a

See more details on using hashes here.

File details

Details for the file pdf_ocr-2.0.0-py3-none-any.whl.

File metadata

  • Download URL: pdf_ocr-2.0.0-py3-none-any.whl
  • Upload date:
  • Size: 1.7 MB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.1.0 CPython/3.12.9

File hashes

Hashes for pdf_ocr-2.0.0-py3-none-any.whl
Algorithm Hash digest
SHA256 f01fc29a5e7ca8c88e6188f7754896acc257780719cac34184b7986d8d456745
MD5 4f32cf5048c1ee817b0d2ab8985b49de
BLAKE2b-256 74857664a0c1e5c36f17e02d4a6dd5d4742223214e896f8306131ddbeff7d783

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page