Skip to main content

Adawat: Arabic Language Toolkit

Project description

Adawat: Arabic Language Toolkit

مكتبة أدوات اللغة العربية

Adawat: Arabic Language Toolkit

adawat logo

adawat logo

PyPI - Downloads

PyPI - Downloads

Developpers: Taha Zerrouki: http://tahadz.com taha dot zerrouki at gmail dot com

Features value
Authors Authors.md
Release 0.1
License GPL
Tracker linuxscout/adawat/Issues
Source Github
Feedbacks Comments
Accounts [@Twitter](https://twitter.com/linuxscout))

Description

Adawat: Arabic Language Toolkit

مزايا:

تجمع هذه المكتبة كل الأدوات المستعملة في معالجة النص العربي مثل:

  • التشكيل
    • تشكيل النص العربي، يستحسن استعمال مكتبة مشكال، أو برنامج مشكال
    • تشكيل مع اقتراحات تشكيلات أخرى لكل كلمة
    • اختزال الحركات من النص المشكول
    • إزالة التشكيل
    • مقارنة جملة مشكولة يدويا مع ما ينتج عن برنامج التشكيل
    • وظائف التحويل
  • نقحرة النص العربي بحروف لاتينية
    • تعريب نص مكتوب بحروف لاتينية
    • قلب نص
    • تفقيط: تحويل عدد إلى نص
    • تنميط النص: توحيد الهمزات والألفات
    • فك تشابك الحروف العربية
    • التحليل والتوليد
  • تحليل صرفي للنص
    • تفريق النص إلى كلمات وعلامات
    • تصنيف الكلمات إلى اسم وفعل وحرف
    • توليد كل الأشكال المختلفة للكلمة
    • استخلاص
  • استخلاص المتلازمات اللفظية
    • كشف اللغات المختلفة
    • استخلاص المسميات
    • استخلاص العبارات العددية
  • متفرقات
    • ضبط قصيدة شعرية عمودية
    • توليد نص عشوائي

Features

  • Tashkeel
    • tashkeel : vocalize text, we recomand to use mishkal-console instead.
    • tashkeel with suggestions for every word.
    • reduce : strip unnecessary tashkeel from avocalized text
    • strip : remove all harakat and shadda
    • compare : Compare Tashkeel between input text and the automatic vocalized text
  • Transformation and Converion
    • romanize : convert an arabic script text to latin representation
    • arabize : convert an transliterated arabic script text to arabic
    • inverse : inverse text
    • numbers to words : convert numeric value to words
    • normalize : normalize letters in arabic text
    • unshape : unshape arabic letters
  • Analysis and generation
    • stem : morphology analysis of given texts
    • tokenize : tokenize a text to words
    • wordtag : classify words into (nouns, verbs, stopwords)
    • affixate : generate all word forms by affixation
  • Extraction
    • collocation : extract collocations from text
    • language : detect arabic and latin clauses in text
    • named : extract named enteties from text
    • numbered : extarct numbred clauses from text
  • Divers
    • affixate : generate all word forms by affixation
    • poetry : format poetry texts to columns poetry
    • random : get a random text

Citation

@thesis{zerrouki2020adawat,
author = {Taha Zerrouki},
title = {Towards An Open Platform For Arabic Language Processing},
type = {PhD thesis},
institution = {Ecole Nationale Supérieure d'informatique, Alger, Algérie},
date = {2020},
}

Usage

install

pip install adawat
import
>>> import adawat.adaat

Examples

Detailed examples and features in Features

Tashkeel

  • tashkeel : vocalize text, we recomand to use mishkal-console instead.
  • tashkeel with suggestions for every word.
  • reduce : strip unnecessary tashkeel from avocalized text
  • strip : remove all harakat and shadda
  • compare : Compare Tashkeel between input text and the automatic vocalized text
>>> lastmark = True
>>> text = u"تطلع الشمس صباحا"
>>> adawat.adaat.tashkeel_text(text, lastmark)
' تَطْلُعُ الشَّمْسُ صَبَاحًا'
[requirement]
asmai>=0.1
mishkal>=0.3
naftawayh>=0.4
pyarabic>=0.6.8
qalsadi>=0.3.6
repr>=0.3.1
spellcheck>=1.0.2
sylajone>=0.2
tashaphyne>=0.3.4.1

Project details


Release history Release notifications | RSS feed

This version

0.1

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Files for adawat, version 0.1
Filename, size File type Python version Upload date Hashes
Filename, size adawat-0.1-py2-none-any.whl (25.0 kB) File type Wheel Python version py2 Upload date Hashes View
Filename, size adawat-0.1-py3-none-any.whl (28.0 kB) File type Wheel Python version py3 Upload date Hashes View
Filename, size adawat-0.1.tar.gz (21.8 kB) File type Source Python version None Upload date Hashes View

Supported by

Pingdom Pingdom Monitoring Google Google Object Storage and Download Analytics Sentry Sentry Error logging AWS AWS Cloud computing DataDog DataDog Monitoring Fastly Fastly CDN DigiCert DigiCert EV certificate StatusPage StatusPage Status page