Skip to main content

Tokenize for subword

Project description

Genz Tokenize

Github

Cài đặt:

pip install genz-tokenize

Sử dụng cho tokenize thông thường

    >>> from genz_tokenize import Tokenize

    # sử dụng vocab sẵn có của thư viện

    >>> tokenize = Tokenize()

    >>>  print(tokenize(['sinh_viên công_nghệ', 'hello'], maxlen = 5))

    # [[1, 288, 433, 2, 0], [1, 20226, 2, 0, 0]]

    >>> print(tokenize.decode([1, 288, 2]))

    # <s> sinh_viên </s>

    # Sử dụng vocab tự tạo

    >>> tokenize = Tokenize.fromFile('vocab.txt','bpe.codes')

Sử dụng tokenize cho model bert của thư viện transformers

    >>> from genz_tokenize import TokenizeForBert

    # sử dụng vocab sẵn có của thư viện

    >>> tokenize = TokenizeForBert()

    >>> print(tokenize(['sinh_viên công_nghệ', 'hello'], max_length=5, padding='max_length',truncation=True))

    # {'input_ids': [[1, 287, 432, 2, 0], [1, 20225, 2, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0], [1, 1, 1, 0, 0]]}

    # Sử dụng vocab tự tạo

    >>> tokenize = TokenizeForBert.fromFile('vocab.txt','bpe.codes')

Có thể tạo vocab cho riêng mình bằng thư viện subword-nmt (learn-joint-bpe-and-vocab)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

genz-tokenize-1.0.8.tar.gz (529.3 kB view details)

Uploaded Source

Built Distribution

genz_tokenize-1.0.8-py3-none-any.whl (532.2 kB view details)

Uploaded Python 3

File details

Details for the file genz-tokenize-1.0.8.tar.gz.

File metadata

  • Download URL: genz-tokenize-1.0.8.tar.gz
  • Upload date:
  • Size: 529.3 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.7.9

File hashes

Hashes for genz-tokenize-1.0.8.tar.gz
Algorithm Hash digest
SHA256 76d676e7abb86926451967f5c6e672bff0b9b3ce8b799ef5d3b435aac4f9ee03
MD5 da3c9dde34070bd528edd11f3424bd29
BLAKE2b-256 6d738d75b28bf4994fabba8438fb7ff6b007745d95663480d4517397500e06b4

See more details on using hashes here.

File details

Details for the file genz_tokenize-1.0.8-py3-none-any.whl.

File metadata

  • Download URL: genz_tokenize-1.0.8-py3-none-any.whl
  • Upload date:
  • Size: 532.2 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.7.9

File hashes

Hashes for genz_tokenize-1.0.8-py3-none-any.whl
Algorithm Hash digest
SHA256 1e68230ee26b8a6e41d700a4383e02d6466304d786e2476076bd68777c771667
MD5 85e20cfdc1d37a883d40569024ba2aae
BLAKE2b-256 2a1ba98c6e9edd086b6a10676f999511d6a8aa26dceaec458f5673ca8ffa84ee

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page