Skip to main content

Tokenize for subword

Project description

Genz Tokenize

Github

Cài đặt:

pip install genz-tokenize

Sử dụng cho tokenize thông thường

    >>> from genz_tokenize import Tokenize
    # sử dụng vocab sẵn có của thư viện
    >>> tokenize = Tokenize()
    >>>  print(tokenize(['sinh_viên công_nghệ', 'hello'], maxlen = 5))
    # [[1, 288, 433, 2, 0], [1, 20226, 2, 0, 0]]
    >>> print(tokenize.decode([1, 288, 2]))
    # <s> sinh_viên </s>
    # Sử dụng vocab tự tạo
    >>> tokenize = Tokenize.fromFile('vocab.txt','bpe.codes')

Sử dụng tokenize cho model bert của thư viện transformers

    >>> from genz_tokenize import TokenizeForBert
    # sử dụng vocab sẵn có của thư viện
    >>> tokenize = TokenizeForBert()
    >>> print(tokenize(['sinh_viên công_nghệ', 'hello'], max_length=5, padding='max_length',truncation=True))
    # {'input_ids': [[1, 287, 432, 2, 0], [1, 20225, 2, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0], [1, 1, 1, 0, 0]]}
    # Sử dụng vocab tự tạo
    >>> tokenize = TokenizeForBert.fromFile('vocab.txt','bpe.codes')

Có thể tạo vocab cho riêng mình bằng thư viện subword-nmt (learn-joint-bpe-and-vocab)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

genz-tokenize-1.1.2.tar.gz (61.8 MB view details)

Uploaded Source

Built Distribution

genz_tokenize-1.1.2-py3-none-any.whl (63.3 MB view details)

Uploaded Python 3

File details

Details for the file genz-tokenize-1.1.2.tar.gz.

File metadata

  • Download URL: genz-tokenize-1.1.2.tar.gz
  • Upload date:
  • Size: 61.8 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.8.0 pkginfo/1.8.2 readme-renderer/32.0 requests/2.22.0 requests-toolbelt/0.9.1 urllib3/1.26.8 tqdm/4.63.0 importlib-metadata/4.11.2 keyring/18.0.1 rfc3986/2.0.0 colorama/0.4.3 CPython/3.8.10

File hashes

Hashes for genz-tokenize-1.1.2.tar.gz
Algorithm Hash digest
SHA256 fbf2edb365a3653b820704cf5b2726cbb6aace5ebd06841143671024670ede4d
MD5 75565078f73cc0f95bdbc8ca71b838a9
BLAKE2b-256 8652b329f13689192ce070114c3d50e939f9920c5c7001f6a36078fd645a22a8

See more details on using hashes here.

File details

Details for the file genz_tokenize-1.1.2-py3-none-any.whl.

File metadata

  • Download URL: genz_tokenize-1.1.2-py3-none-any.whl
  • Upload date:
  • Size: 63.3 MB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.8.0 pkginfo/1.8.2 readme-renderer/32.0 requests/2.22.0 requests-toolbelt/0.9.1 urllib3/1.26.8 tqdm/4.63.0 importlib-metadata/4.11.2 keyring/18.0.1 rfc3986/2.0.0 colorama/0.4.3 CPython/3.8.10

File hashes

Hashes for genz_tokenize-1.1.2-py3-none-any.whl
Algorithm Hash digest
SHA256 4ef77ba17eac6efd21b5fc91add9fb3acbb4d6359251629b3b2fdcff37a2722e
MD5 f2e567218d376c2226a3afa9fd851985
BLAKE2b-256 2c3ced46080153cfa16196a0c87d87459dd35446a4dec9404ff2fdc87085dc46

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page