Skip to main content

Arabic Wikipedia Categories Translation Engine

Project description

مكتبة ArWikiCats — نظام تعريب تلقائي لتصنيفات ويكيبيديا العربية

License Python Status Tests


جدول المحتويات


لماذا ArWikiCats

تعريب تصنيفات ويكيبيديا العربية يمثل تحديًا بسبب العدد الهائل من التصنيفات الإنجليزية والأنماط المتداخلة. يهدف مشروع ArWikiCats إلى معالجة هذه المشكلة عبر بناء نظام قادر على:

  • توحيد أسلوب الترجمة.
  • معالجة التصنيفات بدقة عالية.
  • تنفيذ أنماط زمنية وجغرافية ووظيفية ورياضية معقدة.
  • دعم عمل البوتات ومهام الإنتاج التحريري.
  • معالجة الفئات المركبة التي تتضمن جنسيات ورياضات ووظائف معًا.

1. المزايا الرئيسية

  • سرعة عالية للغاية بعد التحسينات الأخيرة.
  • قواعد ترجمة واسعة تغطي آلاف الأنماط (سنوات – بلدان – وظائف – رياضة – إعلام).
  • تخزين مؤقت داخلي لتسريع الأداء في كل خطوة باستخدام functools.lru_cache.
  • نظام وحدات (Bots) قابل للتوسعة بسهولة.
  • نتائج دقيقة وموحّدة متوافقة مع أسلوب ويكيبيديا العربية.
  • قدرة على معالجة دفعات ضخمة تشمل آلاف أو مئات آلاف التصنيفات.
  • محللات متعددة المستويات لحل الفئات المعقدة (وظائف، جنسيات، رياضات، أسماء بلدان).

2. داخل محرك ArWikiCats

المعالجة الكاملة تمر عبر المراحل التالية:

  • التصنيف الخام → التطبيع → اكتشاف الأنماط الزمنية → المحللات المتخصصة (وظائف/رياضات/جنسيات/بلدان) → مطابقة القواعد والترجمات → وحدة الحل الرئيسية → تنسيق العربية → التسمية النهائية (تصنيف:)

2.1 التطبيع (Normalization)

تنظيف التصنيف قبل التحليل:

  • إزالة الشرطات السفلية.
  • توحيد المسافات.
  • إزالة الرموز غير الضرورية.
  • حذف بادئة Category:.

2.2 اكتشاف الأنماط

  • التعامل مع الحالات الزمنية مثل:
    • المدى الزمني:
    • السنوات (2015 - 10BC)
    • العقود: 1550s
    • القرون: 20th century
    • الألفيات:

مثال:

Category:1550s establishments in Namibia → تصنيف:تأسيسات عقد 1550 في ناميبيا


2.3 القواعد والقواميس

يشمل ذلك:

  • الجنسيات:
    • صيغ المذكر والمؤنث والجمع والمفرد واسم البلد العربي والإنجليزي.
  • الجغرافيا والمدن:
    • المدن والدول والمناطق والأقاليم والمحافظات والبلديات والمقاطعات والتقسيمات الإدارية الأخرى.
  • الوظائف والمهن:
    • مختلف مسميات الوظائف والمهن والأعمال. وتصنيفها حسب الجنس (للرجال/للسيدات) يشمل ذلك الوظائف الرياضية والوظائف السينمائية والمهن العلمية والدينية.
  • الرياضات:
    • التسميات والفرق والوظائف والألعاب الأولمبية، والتنسيقات الرياضية، وأسماء الفرق، ومراكز اللاعبين، ومصطلحات مختلف الرياضات، والرياضات النسائية والشبابية.
  • الأفلام والتلفزيون:
    • الأفلام وأنواعها ومهن صناعة السينما، مثل صناع الأفلام والمخرجين والممثلين، وأنواع وتنسيقات التلفزيون وكافة المصطلحات المتعلقة بالأفلام والتلفزيون.
  • الجوائز والأحداث:
    • جوائز الأفلام والمسابقات الرياضية والجوائز الموسيقية، والأحداث والمناسبات حسب الشهر والسنة.
  • المفاهيم:
    • الأيديولوجيات السياسية، والفترات التاريخية، والمجالات العلمية، والمفاهيم الاقتصادية، واللغات.
  • الكيانات والأشياء:
    • المباني والبنية التحتية والمركبات والأسلحة والكتب والألبومات.
  • الأنواع:
    • الأنواع الحيوانية والنباتية.
  • الأشخاص:
    • الشخصيات التي تملك تصنيفات باسمائها مثل أصحاب المناصب الرسمية والفنانون والمخرجون.

2.4 المحرك المركزي لحل التسمية

المسؤول عن التنظيم:

main_processers/main_resolve.py

وظيفته:

  • تجربة المحللات المتخصصة حسب الأولوية (وظائف ← رياضات ← جنسيات ← بلدان).
  • معالجة الأنماط الزمنية (سنوات، عقود، قرون).
  • التوقف عند أول تطابق صحيح.
  • ضمان الاتساق بين التصنيفات.
  • استخدام التخزين المؤقت لتحسين الأداء.

2.5 تنسيق النتيجة النهائية

يشمل:

  • تحسين الصياغة العربية.
  • تنسيق العبارات.
  • تمرير النتيجة عبر fixlabel.

2.6 إضافة بادئة "تصنيف:"

عبر دالة:

EventProcessor._prefix_label()


3. المتطلبات والتثبيت

3.1 المتطلبات

  • Python 3.10 أو أحدث
  • مكتبات مثبتة من requirements.in

3.2 التثبيت

pip install ArWikiCats --pre

or

git clone https://github.com/MrIbrahem/ArWikiCats.git
cd ArWikiCats
pip install -r requirements.in

4. الاستخدام السريع

4.1 معالجة تصنيف واحد

from ArWikiCats import resolve_arabic_category_label

label = resolve_arabic_category_label("Category:2015 in Yemen")
print(label)
# تصنيف:2015 في اليمن

4.2 معالجة قائمة كاملة

from ArWikiCats import batch_resolve_labels

categories = [
    "Category:2015 American television",
    "Category:1999 establishments in Europe",
    "Category:Belgian cyclists",
    "Category:American basketball coaches",
]

result = batch_resolve_labels(categories)

print(f"تم ترجمة: {len(result.labels)} تصنيف")
print(f"لم يُترجم: {len(result.no_labels)} تصنيف")
print(f"أنماط مكتشفة: {result.category_patterns}")

# عرض النتائج
for en, ar in result.labels.items():
    print(f"  {en}{ar}")

4.3 استخدام دالة الترجمة المباشرة

from ArWikiCats import resolve_label_ar

# بدون بادئة "تصنيف:"
label = resolve_label_ar("American basketball players")
print(label)
# لاعبو كرة سلة أمريكيون

4.4 معالجة تصنيف مع تفاصيل كاملة

from ArWikiCats import EventProcessor

processor = EventProcessor()
result = processor.process_single("Category:British footballers")

print(f"الأصلي: {result.original}")
print(f"المُعيّر: {result.normalized}")
print(f"التسمية الخام: {result.raw_label}")
print(f"التسمية النهائية: {result.final_label}")
print(f"تم إيجاد تسمية: {result.has_label}")

4.5 تشغيل الأمثلة

python examples/run.py           # مثال بسيط
python examples/5k.py            # معالجة 5000 تصنيف

5. إعدادات النظام

يمكن تخصيص سلوك النظام باستخدام متغيرات البيئة أو معاملات سطر الأوامر:

الإعداد الوصف
TGC_RESOLVER_FIRST تفعيل المحلل العام أولاً
-STUBS البحث عن تصنيفات البذور
MAKEERR تفعيل وضع تتبع الأخطاء
NOPRINT إيقاف طباعة الرسائل
SAVE_DATA_PATH مسار حفظ البيانات المؤقتة

مثال على الاستخدام:

# عبر متغيرات البيئة
NOPRINT=true python examples/run.py

# عبر سطر الأوامر
python examples/run.py -stubs

تفاصيل كل متغير موجودة في:

ArWikiCats/config.py


6. توسيع النظام

6.1 إضافة ترجمات جديدة

ضع القواميس داخل:

ArWikiCats/translations/

مثال:

# في ArWikiCats/translations/jobs/Jobs.py
jobs_mens_data = {
    "footballers": "لاعبو كرة قدم",
    "painters": "رسامون",
}

jobs_womens_data = {
    "footballers": "لاعبات كرة قدم",
    "painters": "رسامات",
}

6.2 إضافة محلل جديد

أضف محللك في ArWikiCats/new_resolvers/ واربطه في reslove_all.py:

# في ArWikiCats/new_resolvers/reslove_all.py
from .your_resolver import resolve_your_category

def all_new_resolvers(category: str) -> str:
    category_lab = (
        main_jobs_resolvers(category) or
        resolve_your_category(category) or  # المحلل الجديد
        main_sports_resolvers(category) or
        ""
    )
    return category_lab

6.3 إضافة بوت جديد

ArWikiCats/make_bots/yourdomain_bot.py

مع:

  1. دوال المعالجة
  2. ربط البوت في resolver
  3. إضافة اختبارات في tests/

6.4 استخدام تنسيقات البيانات

from ArWikiCats.translations_formats import FormatData, format_multi_data

# تنسيق بسيط بعنصر واحد
formatter = FormatData(
    formatted_data={"{sport} players": "لاعبو {sport_ar}"},
    data_list={"football": "كرة القدم"},
    key_placeholder="{sport}",
    value_placeholder="{sport_ar}",
)
result = formatter.search("football players")

# تنسيق مركب بعنصرين
multi_formatter = format_multi_data(
    formatted_data={"{nat} {sport} players": "لاعبو {sport_ar} {nat_ar}"},
    data_list={"british": "بريطانيون"},
    data_list2={"football": "كرة القدم"},
    key_placeholder="{nat}",
    value_placeholder="{nat_ar}",
)

7. بنية المشروع

ArWikiCats/
│
├── __init__.py              # نقطة الدخول الرئيسية والتصدير العام
├── config.py                # إعدادات النظام والمتغيرات
├── event_processing.py      # معالجة دفعات التصنيفات
│
├── fix/                     # أدوات تصحيح وتنسيق النصوص العربية
│   ├── fixlists.py
│   ├── fixtitle.py
│   └── specific_normalizations.py
│
├── main_processers/         # المحرك المركزي لحل التسميات
│   ├── main_resolve.py      # نقطة الدخول الرئيسية للترجمة
│   ├── event2bot.py         # معالجة الأحداث والتصنيفات الزمنية
│   └── event_lab_bot.py     # محلل التسميات المتقدم
│
├── new_resolvers/           # المحللات الجديدة المتخصصة
│   ├── reslove_all.py       # نقطة الدخول للمحللات الجديدة
│   ├── jobs_resolvers/      # محللات الوظائف والمهن
│   ├── sports_resolvers/    # محللات الرياضات والفرق
│   ├── nationalities_resolvers/  # محللات الجنسيات
│   ├── countries_names_resolvers/ # محللات أسماء البلدان
│   └── time_and_jobs_resolvers/ # محللات الترجمة المتقدمة
│   └── genders_resolvers/       # محللات الجنس (مذكر/مؤنث)
│
├── patterns_resolvers/      # محللات الأنماط المركبة
│   ├── country_time_pattern.py
│   └── nat_males_pattern.py
│
├── time_formats/          # معالجة الأنماط الزمنية
│   ├── time_to_arabic.py    # تحويل التواريخ للعربية
│   └── with_years_bot.py    # معالجة التصنيفات مع السنوات
│
├── make_bots/               # البوتات المتخصصة
│   ├── date_bots/           # بوتات التواريخ
│   ├── jobs_bots/           # بوتات الوظائف
│   ├── media_bots/          # بوتات الأفلام والتلفزيون
│   ├── sports_bots/         # بوتات الرياضة
│   ├── format_bots/         # بوتات التنسيق
│   ├── o_bots/              # بوتات متنوعة (جامعات وغيرها)
│   ├── languages_bot/       # بوتات اللغات
│   ├── lazy_data_bots/      # بوتات التحميل الكسول
│   └── matables_bots/       # بوتات الجداول
│
├── ma_bots/                 # بوتات المعالجة الأساسية
│   ├── country_bot.py
│   └── general_resolver.py
│
├── ma_bots2/                # بوتات المعالجة المتقدمة
│   ├── ar_lab/
│   ├── country2_bots/
│   └── year_or_typeo/
│
├── translations/            # قواميس الترجمة
│   ├── geo/                 # الجغرافيا والمدن
│   ├── sports/              # الرياضات والفرق
│   ├── jobs/                # الوظائف والمهن
│   ├── nats/                # الجنسيات
│   ├── tv/                  # الأفلام والتلفزيون
│   ├── medical/             # المصطلحات الطبية
│   ├── politics/            # السياسة والحكومات
│   ├── entertainments/      # الترفيه
│   └── mixed/               # بيانات مختلطة
│
├── translations_formats/    # تنسيق قوالب الترجمة
│   ├── DataModel/           # نماذج البيانات الأساسية
│   ├── data_with_time.py    # تنسيق البيانات مع الوقت
│   └── multi_data.py        # تنسيق البيانات المتعددة
│
├── jsons/                   # ملفات JSON للبيانات
│   ├── nationalities/
│   ├── geography/
│   ├── cities/
│   ├── jobs/
│   ├── sports/
│   ├── media/
│   ├── keys/
│   ├── people/
│   ├── population/
│   └── taxonomy/
│
├── helps/                   # أدوات مساعدة
│   ├── log.py               # نظام التسجيل
│   ├── memory.py            # مراقبة الذاكرة
│   └── jsonl_dump.py        # تصدير JSONL
│
└── utils/                   # أدوات عامة
    ├── fixing.py
    └── match_relation_word.py

tests/                       # اختبارات الوحدات (+28,500 اختبار)
examples/                    # أمثلة الاستخدام

8. الاختبارات

بعد أي تحديث:

pytest

يغطي المشروع أكثر من 28,500 اختبار تشمل:

  • الوظائف الأساسية
  • الأنماط الزمنية (سنوات، عقود، قرون، ألفيات، قبل الميلاد)
  • البلدان والجنسيات ومختلف حالات التصنيفات
  • الأنماط المعقدة (جنسية + رياضة + وظيفة)
  • الحالات النادرة
  • أداء النظام
  • مطابقة القواميس
  • الفرق الرياضية والمسابقات
  • الأفلام والتلفزيون
  • محللات الوظائف المتقدمة

8.1 تشغيل جزء معين

pytest -k "jobs"
pytest tests/test_languages/

8.2 الاختبارات البطيئة

pytest -m slow

9. الأداء

  • استهلاك الذاكرة: حُسن الاستهلاك مقارنة مقارنة بالإصدار السابق 2GB إلى أقل من 100 ميجا
  • الاختبارات: 23 ثانية (باستخدام pytest)
  • القدرة على معالجة أكثر من +5,000 تصنيف في ثوان. examples/5k.py

تشغيل Scalene:

python -m scalene run.py

10. ملاحظات للمساهمين

  • أي إضافة يجب أن تشمل قاعدة + قاموس + اختبار.
  • الالتزام بـ Black (طول السطر: 120) وIsort (نمط black) وRuff للفحص.
  • منع إضافة قواعد بلا اختبارات.
  • استخدام f-strings للتسجيل: logger.debug(f"part1={a} part2={b}")
  • الحفاظ على ترميز UTF-8 للنصوص العربية.

تشغيل أدوات التنسيق:

black ArWikiCats/
isort ArWikiCats/
ruff check ArWikiCats/

11. القيود الحالية

  • بعض التصنيفات النادرة قد تحتاج معالجة يدوية.
  • نتائج بعض الأنماط تتوقف على توفر بيانات في القواميس.
  • أنماط معقدة جدًا قد تمر إلى no_labels.

12. خارطة الطريق

  • تحسين وحدة الرياضة (Sport Formatter v3). ✅
  • توسيع تغطية التصنيفات الإعلامية والموسيقية.
  • تحسين دعم التصنيفات متعددة العناصر.
  • إضافة دعم للمزيد من اللغات والترجمات.

13. الخلاصة

نظام ArWikiCats هو نظام مرن، عالي الأداء، قابل للتوسعة، ويدعم عدد كبير جدًا من التصنيفات بسهولة. يعتمد على:

  • قواعد ترجمة متخصصة
  • محللات متعددة المستويات (وظائف، رياضات، جنسيات، بلدان)
  • تخزين مؤقت متقدم
  • اختبارات صارمة (+28,500 اختبار)
  • تصميم قابل للتطوير
  • تنسيقات بيانات مرنة (FormatData, MultiDataFormatter)

ويعد مناسبًا للبوتات، الأعمال التحريرية، والمشاريع الضخمة في ويكيبيديا العربية.


الواجهة البرمجية (API)

الوظائف والفئات المُصدّرة الرئيسية:

from ArWikiCats import (
    resolve_arabic_category_label,  # ترجمة تصنيف واحد مع البادئة
    resolve_label_ar,               # ترجمة تصنيف واحد بدون البادئة
    batch_resolve_labels,           # ترجمة قائمة تصنيفات
    EventProcessor,                 # معالج الأحداث المفصل
    logger,                         # نظام التسجيل
    print_memory,                   # طباعة استهلاك الذاكرة
    dump_all_len,                   # طباعة أطوال البيانات
    config_all_params,              # قائمة المعاملات المتاحة
)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

arwikicats-0.1.0b5.tar.gz (2.1 MB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

arwikicats-0.1.0b5-py3-none-any.whl (1.0 MB view details)

Uploaded Python 3

File details

Details for the file arwikicats-0.1.0b5.tar.gz.

File metadata

  • Download URL: arwikicats-0.1.0b5.tar.gz
  • Upload date:
  • Size: 2.1 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.7

File hashes

Hashes for arwikicats-0.1.0b5.tar.gz
Algorithm Hash digest
SHA256 16e2c41b6bb4a7e406da3ee3fc442c897c9f9d3e06c449330ea9580b5a0f22ab
MD5 1e837dddbefb98239bdefd3a09440dcc
BLAKE2b-256 bab34d2a3f9252fda545f3dbc1afe6f5291c3c3dce95c2fbb2d0d14bfab8947d

See more details on using hashes here.

Provenance

The following attestation bundles were made for arwikicats-0.1.0b5.tar.gz:

Publisher: python-publish.yml on ArWikiCats/ArWikiCats

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

File details

Details for the file arwikicats-0.1.0b5-py3-none-any.whl.

File metadata

  • Download URL: arwikicats-0.1.0b5-py3-none-any.whl
  • Upload date:
  • Size: 1.0 MB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? Yes
  • Uploaded via: twine/6.1.0 CPython/3.13.7

File hashes

Hashes for arwikicats-0.1.0b5-py3-none-any.whl
Algorithm Hash digest
SHA256 5a4049832174393ac6ae4d808421fcbcd04de9a9fd703d74c5fbfae7f1618084
MD5 e7eaa41efbc4370f620f759cf192ec5d
BLAKE2b-256 1731a7b2b5db0fe94cbee22bc94d598945b98b57bbc8886d7d645d3af39388fd

See more details on using hashes here.

Provenance

The following attestation bundles were made for arwikicats-0.1.0b5-py3-none-any.whl:

Publisher: python-publish.yml on ArWikiCats/ArWikiCats

Attestations: Values shown here reflect the state when the release was signed and may no longer be current.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page