Python library for digesting Persian text.
Project description
Python library for digesting Persian text.
Text cleaning
Sentence and word tokenizer
Word lemmatizer
POS tagger
Dependency parser
NLTK compatible
Python 3.3 and 2.7 support
Usage
>>> from hazm import Normalizer >>> normalizer = Normalizer() >>> normalizer.normalize('اصلاح نويسه ها و استفاده از نیمفاصله پردازش را آسان مي كند') 'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند' >>> from hazm import sent_tokenize, word_tokenize >>> sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟') ['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟'] >>> word_tokenize('ولی برای پردازش، جدا بهتر نیست؟') ['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟'] >>> from hazm import Stemmer, Lemmatizer >>> stemmer = Stemmer() >>> stemmer.stem('کتابها') 'کتاب' >>> lemmatizer = Lemmatizer() >>> lemmatizer.lemmatize('میروم') 'رفت#رو' >>> from hazm import POSTagger >>> tagger = POSTagger() >>> tagger.tag(word_tokenize('ما بسیار کتاب میخوانیم')) [('ما', 'PR'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('میخوانیم', 'V')] >>> from hazm import DependencyParser >>> parser = DependencyParser(tagger=POSTagger()) >>> parser.parse(word_tokenize('زنگها برای که به صدا درمیآید ؟')) <DependencyGraph with 8 nodes>
Installation
pip install hazm
We also trained tagger and parser models which you may put them in resources folder of your project.
Thanks
from constributors: Mojtaba Khallash and Mohsen Imany.
from Virastyar for persian word list.
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
hazm-0.1.tar.gz
(134.9 kB
view hashes)
Built Distribution
hazm-0.1.linux-x86_64.exe
(198.6 kB
view hashes)