Turkish tokenizer for Turkish language processing

These details have not been verified by PyPI

Project links

Project description

Turkish Tokenizer

Dilbilim kurallarını temel alarak, çok dilli metinleri işlemek ve anlam bütünlüğünü korumak için gelişmiş bir tokenizer altyapısı.

Kurulum

PyPI üzerinden kurulum (Önerilen)

pip install turkish-tokenizer

Geliştirme için kurulum

git clone https://github.com/malibayram/turkish-tokenizer.git
cd turkish-tokenizer
pip install -e .

Hızlı Başlangıç

Temel Tokenizer Kullanımı

from turkish_tokenizer import TurkishTokenizer

# Tokenizer'ı başlat
tokenizer = TurkishTokenizer()

# Metin tokenizasyonu
text = "Merhaba dünya! Nasılsınız?"
tokens = tokenizer.encode(text)
print("Token IDs:", tokens)

# Token'ları metne geri çevir
decoded_text = tokenizer.decode(tokens)
print("Decoded:", decoded_text)

Hugging Face Uyumlu Tokenizer

from turkish_tokenizer import HFTurkishTokenizer

# Hugging Face uyumlu tokenizer'ı başlat
tokenizer = HFTurkishTokenizer()

# Model girişi için hazırla
model_inputs = tokenizer(
    "Bu cümle model girişi için hazırlanacak.",
    add_special_tokens=True,
    padding=True,
    truncation=True,
    max_length=512,
    return_tensors="pt"
)

print(model_inputs)
# Output: {'input_ids': tensor([[...]]), 'attention_mask': tensor([[...]])}

Hugging Face entegrasyonu hakkında daha fazla bilgi için README_HF.md dosyasına bakın.

Gelişmiş Tokenizasyon

from turkish_tokenizer import TurkishTokenizer

# Tokenizer'ı başlat
tokenizer = TurkishTokenizer()

# Tokenları string olarak al
text = "Kitapları masa üzerinde bıraktım."
tokens = tokenizer.tokenize(text)
print("Tokens:", tokens)

# Token tiplerini öğren
token_details, _ = tokenizer.tokenize_text(text)
for token in token_details:
    print(f"Token: '{token['token']}', ID: {token['id']}, Type: {token['type']}")

İlk Versiyon

Kelime köklerinin ses olayına uğramış olan hallerinin ses olayına uğramamış olan halleri ile aynı id ile temsil edilmesi
İlkHarfBüyük tokeni oluşturulması ve tüm tokenlerin ilk harfinin küçük harfe çevrilmesi
Çoğul tokeni oluşturulması ve ler - lar eklerinin silinmesi
Tamamen aynı olan ama sesleri farklı olan eklerin özel tokenler ile temsil edilmesi
Boşluk, satır sonu ve tab karakterlerinin özel tokenler ile temsil edilmesi

Gelecek Özellikler

Çok dilli destek
Performans optimizasyonları
Daha kapsamlı test senaryoları
Web API desteği
Docker entegrasyonu

GitHub Actions Setup

This project uses GitHub Actions for automated testing and publishing to PyPI. To set up automated publishing:

1. Add PyPI API Token to GitHub Secrets

Go to your GitHub repository settings
Navigate to "Secrets and variables" → "Actions"
Add the following secrets:
- PYPI_API_TOKEN: Your PyPI API token (starts with pypi-)
- TEST_PYPI_API_TOKEN: Your TestPyPI API token (optional)

2. Publishing Workflow

The project will automatically publish to PyPI when:

A new version tag is pushed (e.g., v0.2.1)
The workflow is manually triggered from GitHub Actions

3. Testing Workflow

Tests run automatically on:

Every push to main or develop branches
Every pull request to main branch

Projenin Amacı ve Kapsamı

Bu projenin amacı, metin analizi ve doğal dil işleme (NLP) süreçlerinde kullanılabilecek, dilbilgisel yapıları ve anlam bütünlüğünü dikkate alan bir tokenizer geliştirmektir. Proje, Türkçe dilbilgisi kurallarını referans alarak başlamış olsa da, evrensel dil kuralları doğrultusunda çok dilli bir yapıya sahip olacak şekilde genişletilecektir.

Temel Özellikler

Dilbilim kurallarına dayalı tokenizasyon
Morfolojik analiz desteği
Çok dilli destek altyapısı
Genişletilebilir mimari
Yüksek performanslı işleme
Özel karakter ve boşluk işleme desteği

Dosya Yapısı

Tokenizer üç temel sözlük dosyası kullanır:

kokler.json: Kök kelimeler ve özel tokenler (0-20000 arası ID'ler)
ekler.json: Ekler (20000-20256 arası ID'ler)
bpe_tokenler.json: BPE token'ları

Özel Tokenler

{
  "<uppercase>": 0, // Büyük harf işareti
  "<unknown>": 1, // Bilinmeyen token
  " ": 2, // Boşluk karakteri
  "\n": 3, // Satır sonu
  "\t": 4, // Tab karakteri
  "<pad>": 5, // Padding token
  "<eos>": 6 // End of sequence token
}

Kullanım

Python Implementasyonu

from turkish_tokenizer import TurkishTokenizer

tokenizer = TurkishTokenizer()

text = "Kitabı ve defterleri getirn,\nYouTube\t"
result = tokenizer.tokenize(text)
print(result)

Geliştirme ve Katkıda Bulunma

Geliştirme Ortamı Kurulumu

Repository'yi klonlayın:

git clone <repository-url>
cd tokenizer

Python ortamını hazırlayın:

python -m venv venv
source venv/bin/activate  # Unix/macOS
# veya
.\venv\Scripts\activate  # Windows

Geliştirme Süreci

Yeni bir branch oluşturun:

git checkout -b feature/yeni-ozellik

Testleri çalıştırın:

# Python testleri
python -m pytest tests/

# Rust testleri
cargo test

Kod stilini kontrol edin:

# Python
flake8 .
black .

Değişikliklerinizi commit edin:

git add .
git commit -m "feat: yeni özellik eklendi"

Pull Request Süreci

Branch'inizi push edin:

git push origin feature/yeni-ozellik

GitHub üzerinden pull request açın
Code review sürecini takip edin
Gerekli düzeltmeleri yapın
PR'ınız onaylandığında main branch'e merge edilecektir

Geliştirme Gereksinimleri

Python

Python 3.8+
pytest
black
flake8

Lisans

MIT

Not: Proje aktif geliştirme aşamasındadır.

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

1.0.4

Feb 1, 2026

1.0.1

Feb 1, 2026

1.0.0

Feb 1, 2026

0.2.26

Sep 3, 2025

This version

0.2.25

Aug 27, 2025

0.2.24

Aug 23, 2025

0.2.23

Aug 23, 2025

0.2.22

Aug 20, 2025

0.2.21

Aug 20, 2025

0.2.20

Aug 20, 2025

0.2.18

Aug 20, 2025

0.2.17

Aug 20, 2025

0.2.16

Aug 20, 2025

0.2.15

Aug 20, 2025

0.2.14

Aug 18, 2025

0.2.13

Aug 16, 2025

0.2.12

Aug 16, 2025

0.2.11

Aug 16, 2025

0.2.8

Aug 16, 2025

0.2.4

Aug 16, 2025

0.2.0

Aug 16, 2025

0.1.9

Aug 16, 2025

0.1.8

Aug 16, 2025

0.1.7

Aug 16, 2025

0.1.6

Aug 16, 2025

0.1.5

Aug 16, 2025

0.1.4

Jun 22, 2025

0.1.3

Jun 22, 2025

0.1.2

Jun 22, 2025

0.1.1

Jun 22, 2025

0.1.0

Jun 22, 2025

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

turkish_tokenizer-0.2.25.tar.gz (242.6 kB view details)

Uploaded Aug 27, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

turkish_tokenizer-0.2.25-py3-none-any.whl (232.7 kB view details)

Uploaded Aug 27, 2025 Python 3

File details

Details for the file turkish_tokenizer-0.2.25.tar.gz.

File metadata

Download URL: turkish_tokenizer-0.2.25.tar.gz
Upload date: Aug 27, 2025
Size: 242.6 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.11.13

File hashes

Hashes for turkish_tokenizer-0.2.25.tar.gz
Algorithm	Hash digest
SHA256	`8d9d5ffc4943438f473c3255d66405771ff948aefcabeba6a9ae7a3589bb4490`
MD5	`c1299b6721ffb59e41a986b8fea8b43a`
BLAKE2b-256	`de7b625de37fa2dadf941ecefe8b6783d40b65d9ba4e7faf10c132fc95ed1a4d`

See more details on using hashes here.

File details

Details for the file turkish_tokenizer-0.2.25-py3-none-any.whl.

File metadata

Download URL: turkish_tokenizer-0.2.25-py3-none-any.whl
Upload date: Aug 27, 2025
Size: 232.7 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: twine/6.1.0 CPython/3.11.13

File hashes

Hashes for turkish_tokenizer-0.2.25-py3-none-any.whl
Algorithm	Hash digest
SHA256	`a97da2483d22cc2ba748d3b5e5024b99ae47d56478a86703818f3c3bec93b6cd`
MD5	`f11751b7d8130b04d5fe2497ec09bfc7`
BLAKE2b-256	`fb745810fcdca896bc12f534d0047afb71159caa13f05b2b9392873073bd09c3`

See more details on using hashes here.

turkish-tokenizer 0.2.25

Navigation

Verified details

Maintainers

Meta

Unverified details

Project links

Meta

Classifiers

Project description

Turkish Tokenizer

Kurulum

PyPI üzerinden kurulum (Önerilen)

Geliştirme için kurulum

Hızlı Başlangıç

Temel Tokenizer Kullanımı

Hugging Face Uyumlu Tokenizer

Gelişmiş Tokenizasyon

İlk Versiyon

Gelecek Özellikler

GitHub Actions Setup

1. Add PyPI API Token to GitHub Secrets

2. Publishing Workflow

3. Testing Workflow

Projenin Amacı ve Kapsamı

Temel Özellikler

Dosya Yapısı

Özel Tokenler

Kullanım

Python Implementasyonu

Geliştirme ve Katkıda Bulunma

Geliştirme Ortamı Kurulumu

Geliştirme Süreci

Pull Request Süreci

Geliştirme Gereksinimleri

Python

Lisans

Project details

Verified details

Maintainers

Meta

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes