Skip to main content

Tokenize for subword

Project description

Genz Tokenize

Github

Cài đặt:

pip install genz-tokenize

Sử dụng cho tokenize thông thường

    >>> from genz_tokenize import Tokenize

    # sử dụng vocab sẵn có của thư viện

    >>> tokenize = Tokenize()

    >>>  print(tokenize(['sinh_viên công_nghệ', 'hello'], maxlen = 5))

    # [[1, 288, 433, 2, 0], [1, 20226, 2, 0, 0]]

    >>> print(tokenize.decode([1, 288, 2]))

    # <s> sinh_viên </s>

    # Sử dụng vocab tự tạo

    >>> tokenize = Tokenize.fromFile('vocab.txt','bpe.codes')

Sử dụng tokenize cho model bert của thư viện transformers

    >>> from genz_tokenize import TokenizeForBert

    # sử dụng vocab sẵn có của thư viện

    >>> tokenize = TokenizeForBert()

    >>> print(tokenize(['sinh_viên công_nghệ', 'hello'], max_length=5, padding='max_length',truncation=True))

    # {'input_ids': [[1, 287, 432, 2, 0], [1, 20225, 2, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0], [1, 1, 1, 0, 0]]}

    # Sử dụng vocab tự tạo

    >>> tokenize = TokenizeForBert.fromFile('vocab.txt','bpe.codes')

Có thể tạo vocab cho riêng mình bằng thư viện subword-nmt (learn-joint-bpe-and-vocab)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

genz-tokenize-1.0.7.tar.gz (515.6 kB view details)

Uploaded Source

Built Distribution

genz_tokenize-1.0.7-py3-none-any.whl (518.4 kB view details)

Uploaded Python 3

File details

Details for the file genz-tokenize-1.0.7.tar.gz.

File metadata

  • Download URL: genz-tokenize-1.0.7.tar.gz
  • Upload date:
  • Size: 515.6 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.7.9

File hashes

Hashes for genz-tokenize-1.0.7.tar.gz
Algorithm Hash digest
SHA256 39c0a84823f897a0708b495c835d4ffa2e609882133e15aa89901b66abdc96b8
MD5 413700f2894def89915a41b6c545c878
BLAKE2b-256 1f754c421fc1f2501f381674c11e6292c4a1f320e1f5247af12eb25959d739bd

See more details on using hashes here.

File details

Details for the file genz_tokenize-1.0.7-py3-none-any.whl.

File metadata

  • Download URL: genz_tokenize-1.0.7-py3-none-any.whl
  • Upload date:
  • Size: 518.4 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.7.1 importlib_metadata/4.10.0 pkginfo/1.8.2 requests/2.26.0 requests-toolbelt/0.9.1 tqdm/4.62.3 CPython/3.7.9

File hashes

Hashes for genz_tokenize-1.0.7-py3-none-any.whl
Algorithm Hash digest
SHA256 e832de814403b3ee157b873d381e4064cac86d2210f2310c9ca8a1fead759a2d
MD5 f86fc3743d92c1f1c7592401d48f63a2
BLAKE2b-256 511b467df0962c8c98183bafb2fffe2dd55b4206050f5e485b9220aa241a05a2

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page