Skip to main content

Mint & Lemon Turkish NLP Library developed by Mint & Lemon Development Team.

Project description

Mintlemon Türkçe Doğal Dil İşleme Kütüphanesi

1

Gelecek Planlar

Mint & Lemon Türkçe Doğal Dil İşleme Kütüphanesi aktif olarak geliştirilmekte olup gelecek için birkaç planımız bulunmaktadır. Ana hedefimiz kütüphanenin işlevselliğini ve kullanılabilirliğini geliştirmeye devam ederken, yeni NLP İşlevleri ve uygulamalarını kapsayacak şekilde kütüphaneyi genişletmektir. Şu anda üzerinde çalıştığımız veya yakın gelecekte uygulamayı planladığımız bazı temel özellikler ve geliştirmeler şunlardır:

  • Derin öğrenme ve sinir ağı desteği: Gelecekte kütüphaneye derin öğrenme ve sinir ağı desteği eklemeyi planlıyoruz.
  • Performans ve ölçeklenebilirlikte gelişmeler: Özellikle büyük veri kümeleri ve yüksek hacimli kullanım durumları için kütüphanenin performans ve ölçeklenebilirliğini geliştirmek için çalışıyoruz.
  • Dökümantasyon/Örnekler: Yeni özellikleri ve kullanım durumlarını kapsayan dökümanları ve öğreticileri/örnekleri genişleteceğiz ve ayrıntılı açıklamalar sağlayacağız.
  • Değerlendirme ve karşılaştırma: Gelecekte kütüphanenin performansını ve doğruluğunu ölçmek ve diğer popüler NLP kütüphaneleriyle karşılaştırmak için daha ayrıntılı değerlendirmeler ve karşılaştırmalar yapacağız.

Kütüphanemiz literatürde açıklanan aşağıdaki yöntemleri içermektedir:

Fonksiyon/İşlev Açıklama
split_sentences(text: str) -> List[str] Türkçe metinlerde Türkçe olmayan cümle başlangıç öneklerini dikkate alarak (Örneğin: "Dr.", "Prof." gibi kısaltmalar), bu önekler cümlelerin başında yer aldıklarında ayrı bir cümle olarak algılanmamalıdır. Bunları dikkate alarak metni cümlelere ayırmak için kullanılır. Türkçe metinlerin doğru bir şekilde işlenmesine ve anlaşılmasına yardımcı olur.
TextRootDTMVectorizer(dataframe: pd.DataFrame, column_name: str) TextRootDTMVectorizer, bir DataFrame içindeki metin verilerini belirtilen sütun ismiyle alır. Daha sonra, Zeyrek morfolojik analizörünü kullanarak Türkçe kelimelerin köklerini çıkarır ve belge-terim matrisine dönüştürür. Bu matris, her kelimenin belgedeki frekansını içerir ve makine öğrenimi algoritmalarında sıklıkla kullanılır. Örneğin, bir metin veri kümesindeki belirli bir kelimenin farklı belgelerdeki kullanım sıklığını analiz etmek istiyorsanız, bu matrisi kullanabilirsiniz. Sonuç olarak, TextRootDTMVectorizer verilen DataFrame içindeki metinleri daha uygun hale getirmek ve daha verimli bir şekilde analiz etmek için kullanılabilir.
lower_case(text: str) -> str Türkçe metinleri küçük harfe dönüştürmek için kullanılır. İ, I, Ğ, Ü, Ö, Ş, Ç karakterlerini de doğru şekilde işler.
remove_punctuations(text: str) -> str Verilen metinden noktalama işaretlerini (!"#$%&'()*+,}{~-./:;<=>?@[\]^_ ) gibi ifadeleri kaldırır.
remove_accent_marks(text: str) -> str Verilen metinden Türkçe karakterlerdeki aksan işaretlerini (â, ô, î, ê, û, Â, Ô, Î, Ê, Û) kaldırır.
convert_text_numbers(text: str) -> str Verilen metindeki sayıları Türkçe yazıya çevirir.
deasciify(input: List[str]) -> List[str] Deasciify, metindeki ASCII karakterlerini Türkçe karakterlere dönüştürür. Bu işlem, Türkçe metinlerin doğru bir şekilde işlenmesine ve anlaşılmasına yardımcı olur.
normalize_turkish_chars(text: str) -> str Verilen metindeki Türkçe karakterleri ASCII karakterlere dönüştürür.

Mint-Lemon-Turkish NLP Kütüphanesine'e Katkı Sağlama

Bu projeye doğrudan katkıda bulunmak istiyorsanız, lütfen CONTRIBUTING dosyasına bir göz atın.

Dökümantasyon & Örnek Caseler

Lisans

Bu proje LİSANS altında açık kaynaklıdır.

  • Lütfen dikkat edin, bu proje "olduğu gibi" sunulmaktadır ve hiçbir garanti verilmez. (Bu yazılımın kullanımı lisans sözleşmesinin şartlarına tabidir.) Bu yazılım Apache 2.0 lisansı altında lisanslanmıştır. LİSANS sayfasına bakın.

Referanslar

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

mintlemon-turkish-nlp-0.2.5.tar.gz (114.4 kB view hashes)

Uploaded Source

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page