نرمافزار هوشمند استخراج اطلاعات از فایلهای PDF اظهارنامه
Project description
📄 PDF OCR - استخراج اطلاعات از فایلهای PDF اظهارنامه
نرمافزار هوشمند استخراج اطلاعات از فایلهای PDF اظهارنامه با استفاده از هوش مصنوعی
🚀 دانلود • 📖 راهنما • ⚙️ تنظیمات • 📊 آمار
🎯 ویژگیهای کلیدی
- ✅ استخراج هوشمند اطلاعات از فایلهای PDF اظهارنامه
- ✅ رابط کاربری گرافیکی زیبا و کاربرپسند با PyQt6
- ✅ پشتیبانی از ChatGPT API (GPT-3.5 و GPT-4)
- ✅ تبدیل تاریخ میلادی به شمسی خودکار
- ✅ پردازش دستهای فایلها برای کاهش هزینه
- ✅ خروجی Excel با فرمت استاندارد
- ✅ آمار و گزارش دقیق از مصرف API
- ✅ بهینهسازی هزینه با کاهش مصرف توکن
- ✅ فونتهای فارسی محلی (Segoe UI) برای سازگاری کامل
📋 اطلاعات استخراج شده
| فیلد | توضیحات |
|---|---|
| ارز و مبلغ کل فاکتور | مبلغ کل فاکتور با ارز مربوطه |
🚀 نصب و راهاندازی
پیشنیازها
- Python 3.8 یا بالاتر
- کلید API OpenAI
مراحل نصب
- کلون کردن مخزن
git clone https://github.com/seyedmahdivakhshoori/pdf-ocr.git
cd pdf-ocr
- ایجاد محیط مجازی
python -m venv venv
# Windows
venv\Scripts\activate
# Linux/Mac
source venv/bin/activate
- نصب وابستگیها
pip install -r requirements.txt
- دریافت کلید API
- به OpenAI Platform بروید
- حساب کاربری ایجاد کنید
- از بخش API Keys، یک کلید جدید ایجاد کنید
- اجرای برنامه
python pdf_ocr.py
📖 راهنمای استفاده
1. تنظیمات اولیه
- برنامه را اجرا کنید
- به تب تنظیمات بروید
- کلید API خود را وارد کنید
- مدل مورد نظر را انتخاب کنید (GPT-3.5 یا GPT-4)
- تنظیمات را ذخیره کنید
2. آپلود فایلها
- به تب صفحه اصلی برگردید
- نوع فایلها را انتخاب کنید (واردات/صادرات)
- روی انتخاب فایلهای PDF کلیک کنید
- فایلهای اظهارنامه را انتخاب کنید
3. پردازش
- روی شروع پردازش کلیک کنید
- منتظر بمانید تا پردازش کامل شود
- نتایج در جدول نمایش داده میشود
4. خروجی
- روی خروجی Excel کلیک کنید
- مسیر ذخیره فایل را انتخاب کنید
- فایل Excel با اطلاعات استخراج شده ذخیره میشود
⚙️ تنظیمات
مدلهای پشتیبانی شده
- GPT-3.5-turbo: سریع و اقتصادی
- GPT-4: دقیقتر اما گرانتر
بهینهسازی هزینه
- پردازش دستهای فایلها
- کاهش تعداد توکنهای مصرفی
- فیلتر کردن متنهای غیرضروری
📊 آمار و گزارش
برنامه آمار دقیقی از موارد زیر ارائه میدهد:
- کل فایلهای پردازش شده
- تعداد توکنهای مصرفی
- هزینه کل API
- آمار روزانه
- میانگین توکنها
🛠️ ساختار پروژه
pdf-ocr/
├── pdf_ocr.py # فایل اصلی برنامه
├── create_sample_pdf.py # ایجاد فایل PDF نمونه
├── coords_config.json # تنظیمات مختصات
├── requirements.txt # وابستگیهای Python
├── README.md # راهنمای پروژه
├── .gitignore # فایلهای نادیده گرفته شده
├── fonts/ # فونتهای فارسی
│ ├── segoeui.ttf # Segoe UI Regular
│ ├── segoeuib.ttf # Segoe UI Bold
│ ├── segoeuii.ttf # Segoe UI Italic
│ └── segoeuiz.ttf # Segoe UI Bold Italic
└── your_first_sample.pdf # فایل PDF نمونه
🔧 کلاسهای اصلی
PersianDateConverter
تبدیل تاریخ میلادی به شمسی با دقت بالا
SettingsManager
مدیریت تنظیمات برنامه و آمار استفاده
PDFProcessor
پردازش فایلهای PDF در thread جداگانه
MainWindow
رابط کاربری اصلی برنامه
📝 نمونه کد
ایجاد فایل PDF نمونه
python create_sample_pdf.py
اجرای برنامه اصلی
python pdf_ocr.py
🐛 عیبیابی
مشکلات رایج
-
خطای کلید API
- کلید API را بررسی کنید
- اطمینان حاصل کنید که اعتبار کافی دارید
-
خطای نصب PyQt6
pip install PyQt6 --upgrade
-
مشکل فونت فارسی
- فونت Segoe UI نصب باشد
- سیستم عامل از RTL پشتیبانی کند
🤝 مشارکت
برای مشارکت در پروژه:
- Fork کنید
- Branch جدید ایجاد کنید (
git checkout -b feature/AmazingFeature) - تغییرات را commit کنید (
git commit -m 'Add some AmazingFeature') - Push کنید (
git push origin feature/AmazingFeature) - Pull Request ایجاد کنید
📄 لایسنس
این پروژه تحت لایسنس MIT منتشر شده است. برای اطلاعات بیشتر فایل LICENSE را مطالعه کنید.
👨💻 توسعهدهنده
Seyed Mahdi Vakhshoori - seyedmahdivakhshoori@gmail.com
- GitHub: @seyedmahdivakhshoori
- Instagram: @mahdi_vakhshoori
🙏 تشکر
📞 پشتیبانی
اگر سوال یا مشکلی دارید:
⭐ اگر این پروژه برایتان مفید بود، لطفاً ستاره بدهید!
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file pdf_ocr-2.0.0.tar.gz.
File metadata
- Download URL: pdf_ocr-2.0.0.tar.gz
- Upload date:
- Size: 1.7 MB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.12.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
85558f110c4ae4ee2279919e060c140d7d56b277e986c0de8d7682dfec3a89fb
|
|
| MD5 |
d25fb4feeb628bb54847a3883e40951a
|
|
| BLAKE2b-256 |
21cb4f76a3a93cc8f4d45c7a21598f7e355fe671cc33c99274eefae88838437a
|
File details
Details for the file pdf_ocr-2.0.0-py3-none-any.whl.
File metadata
- Download URL: pdf_ocr-2.0.0-py3-none-any.whl
- Upload date:
- Size: 1.7 MB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.1.0 CPython/3.12.9
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
f01fc29a5e7ca8c88e6188f7754896acc257780719cac34184b7986d8d456745
|
|
| MD5 |
4f32cf5048c1ee817b0d2ab8985b49de
|
|
| BLAKE2b-256 |
74857664a0c1e5c36f17e02d4a6dd5d4742223214e896f8306131ddbeff7d783
|