Skip to main content

Tokenize for subword

Project description

Genz Tokenize

Github

Cài đặt:

pip install genz-tokenize

Sử dụng cho tokenize thông thường

    >>> from genz_tokenize import Tokenize

    # sử dụng vocab sẵn có của thư viện

    >>> tokenize = Tokenize()

    >>>  print(tokenize(['sinh_viên công_nghệ', 'hello'], maxlen = 5))

    # [[1, 288, 433, 2, 0], [1, 20226, 2, 0, 0]]

    >>> print(tokenize.decode([1, 288, 2]))

    # <s> sinh_viên </s>

    # Sử dụng vocab tự tạo

    >>> tokenize = Tokenize.fromFile('vocab.txt','bpe.codes')

Sử dụng tokenize cho model bert của thư viện transformers

    >>> from genz_tokenize import TokenizeForBert

    # sử dụng vocab sẵn có của thư viện

    >>> tokenize = TokenizeForBert()

    >>> print(tokenize(['sinh_viên công_nghệ', 'hello'], max_length=5, padding='max_length',truncation=True))

    # {'input_ids': [[1, 287, 432, 2, 0], [1, 20225, 2, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0], [1, 1, 1, 0, 0]]}

    # Sử dụng vocab tự tạo

    >>> tokenize = TokenizeForBert.fromFile('vocab.txt','bpe.codes')

Có thể tạo vocab cho riêng mình bằng thư viện subword-nmt (learn-joint-bpe-and-vocab)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

genz-tokenize-1.0.9.tar.gz (529.4 kB view details)

Uploaded Source

Built Distribution

genz_tokenize-1.0.9-py3-none-any.whl (532.3 kB view details)

Uploaded Python 3

File details

Details for the file genz-tokenize-1.0.9.tar.gz.

File metadata

  • Download URL: genz-tokenize-1.0.9.tar.gz
  • Upload date:
  • Size: 529.4 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.7.9

File hashes

Hashes for genz-tokenize-1.0.9.tar.gz
Algorithm Hash digest
SHA256 0d5bb30d661aef6add86ef1390188680e6019323eab3ad863d35d8ceaf254e2f
MD5 3f870ea012e04b30b0984aa3c621ec6e
BLAKE2b-256 dd822ea25bbf36fe661a473ae2a610a560fd7883c6983a251622aef5164000bb

See more details on using hashes here.

File details

Details for the file genz_tokenize-1.0.9-py3-none-any.whl.

File metadata

  • Download URL: genz_tokenize-1.0.9-py3-none-any.whl
  • Upload date:
  • Size: 532.3 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.7.9

File hashes

Hashes for genz_tokenize-1.0.9-py3-none-any.whl
Algorithm Hash digest
SHA256 2197a42afd5cfb3b270913c4f1cfff8bb02a5e617a4fc22e6f71b0bc81cf212e
MD5 6b0c7a08b0b5c23986d8d89ffcfa752e
BLAKE2b-256 31d4ad5332a0e40bea1dde010593c150c63c4a12d19e259aaf0e47bd788a00a2

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page