Biblioteca com tokenizadores criados por Luis Chary
Project description
CharyluTokenizer
Biblioteca elaborada e utilizada por Luis Felipe Chary para utilização em projetos de DeepLearning envolvendo linguagem natural.
Consiste em uma gama de tokenizadores treinados utilizando a biblioteca Tokenizers mas com conjunto de dados próprios. Todos os tokenizadores foram treinados utilizando o algoritmo byte-pair encoding.
Os tokenizadores foram especialmente projetados para utilização em linguas latinas, com foco no Português.
Utilização básica
Para utilizar os tokenizadores utilize o seguinte código de exemplo:
from charylutokenizer.load import load
# inicializa o tokenizer
tokenizer = load(90, "_nocode") # tamanho do vocabulario desejado (k) e tipo
# tokeniza string
tokenizer.tokenize("texto de teste") # [47941, 9851, 16941]
# detokeniza tokens
tokenizer.detokenize([47941, 9851, 16941]) # "testo de teste"
Escopo
Os tokenizadores foram treinados em uma base proprietária que possui uma ampla gama de origens de textos (internet, livros, publicações científicas, repositórios de código, etc).
Para o treinamento dos tokenizadores, foi feita uma filtragem principalmente nas línguas de modo a aumentar a eficiência nas linguas latinas e inglês, dessa forma o tokenizador deve comportar bem:
- Português (Brasil e Portugal) ~ 80% da base de treino
- Espanhol ~ 1.5% da base de treino
- Italiano ~ 1.5% da base de treino
- Francês ~ 2% da base de treino
- Inglês ~ 15% da base de treino
Versões
Foram treinados dois tipos diferentes de tokenizadores:
- Proposta geral - treinado em textos de múltiplas naturezas.
- No code - treinado em textos de múltiplas naturezas menos programação. Foram removidos textos de repositórios, livros, pdfs... tudo que possuia alguma linguagem de programação.
Vocab. | Geral | NoCode |
---|---|---|
32 | ✓ | ✓ |
50 | ✓ | ✓ |
60 | ✓ | ✓ |
70 | ✓ | ✓ |
80 | ✓ | ✓ |
90 | ✓ | ✓ |
100 | ✓ | ✓ |
110 | ✓ | |
120 | ✓ | ✓ |
130 | ✓ | |
150 | ✓ | ✓ |
Changelog
- version 0.0.5 - first usable version
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
File details
Details for the file charylu-tokenizer-0.0.6.tar.gz
.
File metadata
- Download URL: charylu-tokenizer-0.0.6.tar.gz
- Upload date:
- Size: 19.5 MB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/5.1.0 CPython/3.10.12
File hashes
Algorithm | Hash digest | |
---|---|---|
SHA256 | d95425c9a49eccec4f2760b9d6dd1ad35260524622ad7e5569d32b8a3035ffa8 |
|
MD5 | 779e78093bf293f9f48b69031cb549e7 |
|
BLAKE2b-256 | 306894db0c1076d854b4c4b2518e6ccb7d64029e83f8502681c2f98f83cae45b |