Tokenize for subword
Project description
Genz Tokenize
Cài đặt:
pip install genz-tokenize
Sử dụng cho tokenize thông thường
>>> from genz_tokenize import Tokenize
# sử dụng vocab sẵn có của thư viện
>>> tokenize = Tokenize()
>>> print(tokenize(['sinh_viên công_nghệ', 'hello'], maxlen = 5))
# [[1, 288, 433, 2, 0], [1, 20226, 2, 0, 0]]
>>> print(tokenize.decode([1, 288, 2]))
# <s> sinh_viên </s>
# Sử dụng vocab tự tạo
>>> tokenize = Tokenize.fromFile('vocab.txt','bpe.codes')
Sử dụng tokenize cho model bert của thư viện transformers
>>> from genz_tokenize import TokenizeForBert
# sử dụng vocab sẵn có của thư viện
>>> tokenize = TokenizeForBert()
>>> print(tokenize(['sinh_viên công_nghệ', 'hello'], max_length=5, padding='max_length',truncation=True))
# {'input_ids': [[1, 287, 432, 2, 0], [1, 20225, 2, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0], [0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0], [1, 1, 1, 0, 0]]}
# Sử dụng vocab tự tạo
>>> tokenize = TokenizeForBert.fromFile('vocab.txt','bpe.codes')
Embedding matrix
>>> from genz_tokenize import get_embedding_matrix
>>> embedding_matrix = get_embedding_matrix()
Có thể tạo vocab cho riêng mình bằng thư viện subword-nmt (learn-joint-bpe-and-vocab)
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
genz-tokenize-1.1.1.tar.gz
(61.8 MB
view details)
Built Distribution
File details
Details for the file genz-tokenize-1.1.1.tar.gz
.
File metadata
- Download URL: genz-tokenize-1.1.1.tar.gz
- Upload date:
- Size: 61.8 MB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.8.0 pkginfo/1.8.2 readme-renderer/32.0 requests/2.27.1 requests-toolbelt/0.9.1 urllib3/1.26.8 tqdm/4.63.0 importlib-metadata/4.11.2 keyring/23.5.0 rfc3986/2.0.0 colorama/0.4.4 CPython/3.8.10
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | 01b7fab10182634894e401b58667e1dab433046bbfacadadad1643a2c412c27e |
|
MD5 | 591b989c6c8ee2b97a0b4fc4cdedfc0a |
|
BLAKE2b-256 | 50a874c344e5b045431e7d40ae3aa6958eced17439017b0cf35826cfe1b57171 |
File details
Details for the file genz_tokenize-1.1.1-py3-none-any.whl
.
File metadata
- Download URL: genz_tokenize-1.1.1-py3-none-any.whl
- Upload date:
- Size: 63.3 MB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/3.8.0 pkginfo/1.8.2 readme-renderer/32.0 requests/2.27.1 requests-toolbelt/0.9.1 urllib3/1.26.8 tqdm/4.63.0 importlib-metadata/4.11.2 keyring/23.5.0 rfc3986/2.0.0 colorama/0.4.4 CPython/3.8.10
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | d3f942d5f7a8d17023c472a89bf0d10f408211e553998d67cb8bf3cc497d7338 |
|
MD5 | 5295fb81e52bcbd967e1657bf3ddf025 |
|
BLAKE2b-256 | fca0c21ba9070a292beb24a33a1ce7d59292a2a69a49252bcf5e38be0e96f1ee |