Skip to main content

Tokenize for subword

Project description

Genz Tokenize

Github

Cài đặt:

pip install genz-tokenize

Sử dụng cho tokenize thông thường

    >>> from genz_tokenize import Tokenize

    # sử dụng vocab sẵn có của thư viện

    >>> tokenize = Tokenize()

    >>>  print(tokenize(['sinh_viên công_nghệ', 'hello'], maxlen = 5))

    # [[1, 288, 433, 2, 0], [1, 20226, 2, 0, 0]]

    >>> print(tokenize.decode([1, 288, 2]))

    # <s> sinh_viên </s>

    # Sử dụng vocab tự tạo

    >>> tokenize = Tokenize.fromFile('vocab.txt','bpe.codes')

Sử dụng tokenize cho model bert của thư viện transformers

    >>> from genz_tokenize import TokenizeForBert

    # sử dụng vocab sẵn có của thư viện

    >>> tokenize = TokenizeForBert()

    >>> print(tokenize(['sinh_viên công_nghệ', 'hello'], max_length=5, padding='max_length',truncation=True))

    # {'input_ids': [[1, 287, 432, 2, 0], [1, 20225, 2, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0], [1, 1, 1, 0, 0]]}

    # Sử dụng vocab tự tạo

    >>> tokenize = TokenizeForBert.fromFile('vocab.txt','bpe.codes')

Có thể tạo vocab cho riêng mình bằng thư viện subword-nmt (learn-joint-bpe-and-vocab)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

genz-tokenize-1.0.6.tar.gz (414.0 kB view details)

Uploaded Source

Built Distribution

genz_tokenize-1.0.6-py3-none-any.whl (415.9 kB view details)

Uploaded Python 3

File details

Details for the file genz-tokenize-1.0.6.tar.gz.

File metadata

  • Download URL: genz-tokenize-1.0.6.tar.gz
  • Upload date:
  • Size: 414.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.7.9

File hashes

Hashes for genz-tokenize-1.0.6.tar.gz
Algorithm Hash digest
SHA256 a62f303b7c75286b0d7bf0dca484ae18638c26de1f400ac662dde92308c147b6
MD5 93962f178c62fb879c8325d87f29ace5
BLAKE2b-256 f6e7272cb8359b9db064c1384062ed8685b14bafd2a7b0a53808273ca078a961

See more details on using hashes here.

File details

Details for the file genz_tokenize-1.0.6-py3-none-any.whl.

File metadata

  • Download URL: genz_tokenize-1.0.6-py3-none-any.whl
  • Upload date:
  • Size: 415.9 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.7.9

File hashes

Hashes for genz_tokenize-1.0.6-py3-none-any.whl
Algorithm Hash digest
SHA256 409647590d17eb8ecb3215d445dce317bff83452c4cc3722ff2e9bc6ec97952b
MD5 8646f7172e3dc01c65f9d9ef6725c528
BLAKE2b-256 0821442ac07cb1a9f518fb5354bfc8438fcbcc5a4044c2dbf44e210f6e2ecb98

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page