Skip to main content

Tokenize for subword

Project description

Genz Tokenize

Github

Cài đặt:

pip install genz-tokenize

Sử dụng cho tokenize thông thường

    >>> from genz_tokenize import Tokenize
    # sử dụng vocab sẵn có của thư viện
    >>> tokenize = Tokenize()
    >>>  print(tokenize(['sinh_viên công_nghệ', 'hello'], maxlen = 5))
    # [[1, 288, 433, 2, 0], [1, 20226, 2, 0, 0]]
    >>> print(tokenize.decode([1, 288, 2]))
    # <s> sinh_viên </s>
    # Sử dụng vocab tự tạo
    >>> tokenize = Tokenize.fromFile('vocab.txt','bpe.codes')

Sử dụng tokenize cho model bert của thư viện transformers

    >>> from genz_tokenize import TokenizeForBert
    # sử dụng vocab sẵn có của thư viện
    >>> tokenize = TokenizeForBert()
    >>> print(tokenize(['sinh_viên công_nghệ', 'hello'], max_length=5, padding='max_length',truncation=True))
    # {'input_ids': [[1, 287, 432, 2, 0], [1, 20225, 2, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0], [1, 1, 1, 0, 0]]}
    # Sử dụng vocab tự tạo
    >>> tokenize = TokenizeForBert.fromFile('vocab.txt','bpe.codes')

Embedding matrix

    >>> from genz_tokenize import get_embedding_matrix
    >>> embedding_matrix = get_embedding_matrix()

Có thể tạo vocab cho riêng mình bằng thư viện subword-nmt (learn-joint-bpe-and-vocab)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

genz-tokenize-1.1.1.tar.gz (61.8 MB view details)

Uploaded Source

Built Distribution

genz_tokenize-1.1.1-py3-none-any.whl (63.3 MB view details)

Uploaded Python 3

File details

Details for the file genz-tokenize-1.1.1.tar.gz.

File metadata

  • Download URL: genz-tokenize-1.1.1.tar.gz
  • Upload date:
  • Size: 61.8 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.8.0 pkginfo/1.8.2 readme-renderer/32.0 requests/2.27.1 requests-toolbelt/0.9.1 urllib3/1.26.8 tqdm/4.63.0 importlib-metadata/4.11.2 keyring/23.5.0 rfc3986/2.0.0 colorama/0.4.4 CPython/3.8.10

File hashes

Hashes for genz-tokenize-1.1.1.tar.gz
Algorithm Hash digest
SHA256 01b7fab10182634894e401b58667e1dab433046bbfacadadad1643a2c412c27e
MD5 591b989c6c8ee2b97a0b4fc4cdedfc0a
BLAKE2b-256 50a874c344e5b045431e7d40ae3aa6958eced17439017b0cf35826cfe1b57171

See more details on using hashes here.

File details

Details for the file genz_tokenize-1.1.1-py3-none-any.whl.

File metadata

  • Download URL: genz_tokenize-1.1.1-py3-none-any.whl
  • Upload date:
  • Size: 63.3 MB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.8.0 pkginfo/1.8.2 readme-renderer/32.0 requests/2.27.1 requests-toolbelt/0.9.1 urllib3/1.26.8 tqdm/4.63.0 importlib-metadata/4.11.2 keyring/23.5.0 rfc3986/2.0.0 colorama/0.4.4 CPython/3.8.10

File hashes

Hashes for genz_tokenize-1.1.1-py3-none-any.whl
Algorithm Hash digest
SHA256 d3f942d5f7a8d17023c472a89bf0d10f408211e553998d67cb8bf3cc497d7338
MD5 5295fb81e52bcbd967e1657bf3ddf025
BLAKE2b-256 fca0c21ba9070a292beb24a33a1ce7d59292a2a69a49252bcf5e38be0e96f1ee

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page