Skip to main content

Tokenize for subword

Project description

Genz Tokenize

Github

Cài đặt:

pip install genz-tokenize

Sử dụng cho tokenize thông thường

    >>> from genz_tokenize import Tokenize
    # sử dụng vocab sẵn có của thư viện
    >>> tokenize = Tokenize()
    >>>  print(tokenize(['sinh_viên công_nghệ', 'hello'], maxlen = 5))
    # [[1, 288, 433, 2, 0], [1, 20226, 2, 0, 0]]
    >>> print(tokenize.decode([1, 288, 2]))
    # <s> sinh_viên </s>
    # Sử dụng vocab tự tạo
    >>> tokenize = Tokenize.fromFile('vocab.txt','bpe.codes')

Sử dụng tokenize cho model bert của thư viện transformers

    >>> from genz_tokenize import TokenizeForBert
    # sử dụng vocab sẵn có của thư viện
    >>> tokenize = TokenizeForBert()
    >>> print(tokenize(['sinh_viên công_nghệ', 'hello'], max_length=5, padding='max_length',truncation=True))
    # {'input_ids': [[1, 287, 432, 2, 0], [1, 20225, 2, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0], [1, 1, 1, 0, 0]]}
    # Sử dụng vocab tự tạo
    >>> tokenize = TokenizeForBert.fromFile('vocab.txt','bpe.codes')

Embedding matrix

    >>> from genz_tokenize import get_embedding_matrix
    >>> embedding_matrix = get_embedding_matrix()

Có thể tạo vocab cho riêng mình bằng thư viện subword-nmt (learn-joint-bpe-and-vocab)

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

genz-tokenize-1.1.3.tar.gz (62.4 MB view details)

Uploaded Source

Built Distribution

genz_tokenize-1.1.3-py3-none-any.whl (63.9 MB view details)

Uploaded Python 3

File details

Details for the file genz-tokenize-1.1.3.tar.gz.

File metadata

  • Download URL: genz-tokenize-1.1.3.tar.gz
  • Upload date:
  • Size: 62.4 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.8.0 pkginfo/1.8.2 readme-renderer/32.0 requests/2.27.1 requests-toolbelt/0.9.1 urllib3/1.26.8 tqdm/4.63.0 importlib-metadata/4.11.2 keyring/23.5.0 rfc3986/2.0.0 colorama/0.4.4 CPython/3.8.10

File hashes

Hashes for genz-tokenize-1.1.3.tar.gz
Algorithm Hash digest
SHA256 5a6a87da76c51d52a4d1d871e015473954adc8e986484d3ab85e8a0391cf6645
MD5 f6619db77e1c945609d1d2edd25b469d
BLAKE2b-256 6cfce85d659d2c134d82cc529ac8f5d364f5fa32ce619b54e7f698dbb909e925

See more details on using hashes here.

File details

Details for the file genz_tokenize-1.1.3-py3-none-any.whl.

File metadata

  • Download URL: genz_tokenize-1.1.3-py3-none-any.whl
  • Upload date:
  • Size: 63.9 MB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/3.8.0 pkginfo/1.8.2 readme-renderer/32.0 requests/2.27.1 requests-toolbelt/0.9.1 urllib3/1.26.8 tqdm/4.63.0 importlib-metadata/4.11.2 keyring/23.5.0 rfc3986/2.0.0 colorama/0.4.4 CPython/3.8.10

File hashes

Hashes for genz_tokenize-1.1.3-py3-none-any.whl
Algorithm Hash digest
SHA256 8a0d9cfb3209aa6cea5cf13cc5b4eb12e087de629edb779653dfef741e487532
MD5 d865754171690dd940eeecdd0af2a62e
BLAKE2b-256 47dac522db091b819298531925fb74ac7cc344b46bd3b10b11097b0097195077

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page