Skip to main content

Basic nlp for thai

Project description

เครื่องมือ NLP สำหรับภาษาไทย

include

  • Token Identification: ระบุชนิด Token ข้อความภาษาไทย
  • PmSeg: หาขอบเขตของ pseudo morpheme
  • Pos tagging: Tag part of speech(pos) ระดับ pseudo morpheme และ ระดับคำ
  • Spelling corrector: แก้ไขคำผิด
  • Find Similarity Terms: ค้นหา Terms/Words ที่เขียนผิดหรือคล้ายกันในเอกสาร

Colab

https://colab.research.google.com/drive/1G7OUNsCC-B5XHNd8V5Et1ZKpJp4R66hg

Update

0.5.8

  • FindSimilarityTerms: เพิ่ม findAll_similarity_terms, getLang(Check เอกสารว่่่าเป็นภาษาอะไร)

0.5.4, 0.5.3, 0.5.2

  • แก้ bug FindSimilarityTerms: เปลี่ยนชื่อ find_timilarity_terms เป็น find_similarity_terms

0.5.1

  • เพิ่ม library FindSimilarityTerms

0.4.2

  • แก้ bug TokenIdentification: E-mail regular expression

0.4.1

  • แก้ bug TokenIdentification: Tag จากไฟล์ให้ถูกต้องมากขึ้น

0.3.7

  • แก้ correction ใน spelling ในกรณีที่ค่า prop เท่ากันให้พิจารณาโดยใช้ Tri-gram

0.3.5

  • เพิ่ม library spelling

0.3.4

  • แก้ function get_ps แบบสั้น ไม่ต้องใส่ textInput=

0.3.3

  • แก้ function get_ps ไม่ให้ new class ทุกครั้ง
  • หลังจาก new class PmSeg() ต้องเรียกฟังก์ชั่น init_cls() เสมอ
  • หลังจาก new class PosTag() ต้องเรียกฟังก์ชั่น init_cls() เสมอ

0.3.1

  • เพิ่ม library POS Tagging

0.2.7

  • Add wrap function get_ps

0.2.1

  • เพิ่ม library Token Identification

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

basicthainlp-0.5.8.tar.gz (35.7 MB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

basicthainlp-0.5.8-py3-none-any.whl (35.8 MB view details)

Uploaded Python 3

File details

Details for the file basicthainlp-0.5.8.tar.gz.

File metadata

  • Download URL: basicthainlp-0.5.8.tar.gz
  • Upload date:
  • Size: 35.7 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.11.9

File hashes

Hashes for basicthainlp-0.5.8.tar.gz
Algorithm Hash digest
SHA256 7c5d28cb6e1a737f3143c2d573b1d2681507c430cf8ce5ed667bfa2b7a9b7c05
MD5 afa49880ebddc9257d77333cdf7e131a
BLAKE2b-256 1b726f9b0e6d6cab6d36af36492489b9e0ecbb5f403af13dd09f37ce7c3e9a7b

See more details on using hashes here.

File details

Details for the file basicthainlp-0.5.8-py3-none-any.whl.

File metadata

  • Download URL: basicthainlp-0.5.8-py3-none-any.whl
  • Upload date:
  • Size: 35.8 MB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.11.9

File hashes

Hashes for basicthainlp-0.5.8-py3-none-any.whl
Algorithm Hash digest
SHA256 1e77f3a5864d1dc79e188b659f6f2cf588980886c4d9c514cad4c5562610ecc2
MD5 1a3c30ede6d5a39ac6d288c5cc77d1cd
BLAKE2b-256 6fe83f4ae6a4c88b4bcd69af1a3675fde19b31e3f7402cd5f7b9f23873c5198f

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page