Yet Another Tokenizer for Thai

These details have not been verified by PyPI

Project description

AttaCut

TLDR: 3-Layer dilated CNN on character and syllable features

Installation

# only for beta version
$ pip install attacut

Usage

Command-Line Interface

$ attacut-cli -h
AttaCut: Fast and Reasonably Accurate Tokenizer for Thai

Usage:
  attacut-cli <src> [--dest=<dest>] [--model=<model>]
  attacut-cli (-h | --help)

Options:
  -h --help         Show this screen.
  --model=<model>   Model to be used [default: attacut-sc].
  --dest=<dest>     If not specified, it'll be <src>-tokenized-by-<model>.txt

Higher-Level Inferface

aka. module importing

from attacut import Tokenizer

atta = Tokenizer(model="attacut-sc")
atta.tokenizer(txt)

Development

Please refer to DEVELOPMENT.md

Related Resources

Acknowledgements

This repository was initially done by Pattarawat Chormai, while interning at Dr. Attapol Thamrongrattanarit's NLP Lab, Chulalongkorn University, Bangkok, Thailand.
Many thanks to my collegeus at Dr. Attapol's lab, PyThaiNLP team, Ekapol Chuangsuwanich , Noom, and Can for comments and feedback.

Project details

These details have not been verified by PyPI

Release history Release notifications | RSS feed

1.1.0.dev0 pre-release

Mar 13, 2020

1.0.6

Nov 21, 2019

1.0.6.dev0 pre-release

Nov 21, 2019

1.0.5

Oct 18, 2019

1.0.4

Oct 1, 2019

1.0.4.dev0 pre-release

Oct 1, 2019

1.0.3

Oct 1, 2019

1.0.3.dev0 pre-release

Oct 1, 2019

1.0.2

Sep 8, 2019

1.0.2.dev0 pre-release

Sep 8, 2019

1.0.1

Sep 1, 2019

1.0.0

Sep 1, 2019

0.0.6.dev0 pre-release

Aug 30, 2019

0.0.5.dev0 pre-release

Aug 30, 2019

This version

0.0.4.dev0 pre-release

Aug 29, 2019

0.0.3.dev0 pre-release

Aug 25, 2019

0.0.2.dev0 pre-release

Aug 25, 2019

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

attacut-0.0.4.dev0.tar.gz (1.3 MB view hashes)

Uploaded Aug 29, 2019 Source

Built Distribution

attacut-0.0.4.dev0-py3-none-any.whl (1.3 MB view hashes)

Uploaded Aug 29, 2019 Python 3

Hashes for attacut-0.0.4.dev0.tar.gz

Hashes for attacut-0.0.4.dev0.tar.gz
Algorithm	Hash digest
SHA256	`d2c2a9316f3ff2c9c1baa382408f443dad6743c4e5bf500d2a2c9a2ab6089f49`
MD5	`b76d2c65580fb04d3267823f536d9d70`
BLAKE2b-256	`04dc5762a74550593cbfa4e3118b5f3717c5a00c102917b1643510ddcfa544e4`

Hashes for attacut-0.0.4.dev0-py3-none-any.whl

Hashes for attacut-0.0.4.dev0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`716c7166c763783eca9e6a8e0444d74a64d81d273f759f7fb1f1c0713cb715ea`
MD5	`b8e4d684cb46b0347af7d8771e4ce278`
BLAKE2b-256	`c78c3e437d7c3782bbca042018dbe23c899d3c5273d17a38e7faa0d29bc5cc19`