Skip to main content

Basic nlp for thai

Project description

เครื่องมือ NLP สำหรับภาษาไทย

include

  • Token Identification: ระบุชนิด Token ข้อความภาษาไทย
  • PmSeg: หาขอบเขตของ pseudo morpheme
  • Pos tagging: Tag part of speech(pos) ระดับ pseudo morpheme และ ระดับคำ
  • Spelling corrector: แก้ไขคำผิด
  • Find Similarity Terms: ค้นหา Terms/Words ที่เขียนผิดหรือคล้ายกันในเอกสาร

Colab

https://colab.research.google.com/drive/1G7OUNsCC-B5XHNd8V5Et1ZKpJp4R66hg

Update

0.5.4, 0.5.3, 0.5.2

  • แก้ bug FindSimilarityTerms: เปลี่ยนชื่อ find_timilarity_terms เป็น find_similarity_terms

0.5.1

  • เพิ่ม library FindSimilarityTerms

0.4.2

  • แก้ bug TokenIdentification: E-mail regular expression

0.4.1

  • แก้ bug TokenIdentification: Tag จากไฟล์ให้ถูกต้องมากขึ้น

0.3.7

  • แก้ correction ใน spelling ในกรณีที่ค่า prop เท่ากันให้พิจารณาโดยใช้ Tri-gram

0.3.5

  • เพิ่ม library spelling

0.3.4

  • แก้ function get_ps แบบสั้น ไม่ต้องใส่ textInput=

0.3.3

  • แก้ function get_ps ไม่ให้ new class ทุกครั้ง
  • หลังจาก new class PmSeg() ต้องเรียกฟังก์ชั่น init_cls() เสมอ
  • หลังจาก new class PosTag() ต้องเรียกฟังก์ชั่น init_cls() เสมอ

0.3.1

  • เพิ่ม library POS Tagging

0.2.7

  • Add wrap function get_ps

0.2.1

  • เพิ่ม library Token Identification

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

basicthainlp-0.5.4.tar.gz (35.7 MB view details)

Uploaded Source

Built Distribution

basicthainlp-0.5.4-py3-none-any.whl (35.8 MB view details)

Uploaded Python 3

File details

Details for the file basicthainlp-0.5.4.tar.gz.

File metadata

  • Download URL: basicthainlp-0.5.4.tar.gz
  • Upload date:
  • Size: 35.7 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.11.9

File hashes

Hashes for basicthainlp-0.5.4.tar.gz
Algorithm Hash digest
SHA256 4341aa7e224173cde2f0e60f90cb58592845cf36053208551fd85f8fccc95449
MD5 277200c72d5b845ae007fb76f0b3cbf4
BLAKE2b-256 600644b8b1b30b512c78fa8295635fa32b325f058a5fff3d12c36784d0f0387d

See more details on using hashes here.

File details

Details for the file basicthainlp-0.5.4-py3-none-any.whl.

File metadata

  • Download URL: basicthainlp-0.5.4-py3-none-any.whl
  • Upload date:
  • Size: 35.8 MB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.1 CPython/3.11.9

File hashes

Hashes for basicthainlp-0.5.4-py3-none-any.whl
Algorithm Hash digest
SHA256 eeefdc99da95d9543f7b26d51a56a080c3df0566e100ced9329292af3543db4f
MD5 ac512918f24880052bb765f398b6e317
BLAKE2b-256 0b325f78d83573965244600d08e663ef2fed2ffdbdd3e12dd9a77d386b1b1f16

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page