Biblioteca com tokenizadores criados por Luis Chary
Project description
CharyluTokenizer
Biblioteca elaborada e utilizada por Luis Felipe Chary para utilização em projetos de DeepLearning envolvendo linguagem natural.
Consiste em uma gama de tokenizadores treinados utilizando a biblioteca Tokenizers mas com conjunto de dados próprios. Todos os tokenizadores foram treinados utilizando o algoritmo byte-pair encoding.
Os tokenizadores foram especialmente projetados para utilização em linguas latinas, com foco no Português.
Utilização básica
Para utilizar os tokenizadores utilize o seguinte código de exemplo:
from charylutokenizer.load import load
# inicializa o tokenizer
tokenizer = load(90, "_nocode") # tamanho do vocabulario desejado (k) e tipo
# tokeniza string
tokenizer.tokenize("texto de teste") # [47941, 9851, 16941]
# detokeniza tokens
tokenizer.detokenize([47941, 9851, 16941]) # "testo de teste"
Escopo
Os tokenizadores foram treinados em uma base proprietária que possui uma ampla gama de origens de textos (internet, livros, publicações científicas, repositórios de código, etc).
Para o treinamento dos tokenizadores, foi feita uma filtragem principalmente nas línguas de modo a aumentar a eficiência nas linguas latinas e inglês, dessa forma o tokenizador deve comportar bem:
- Português (Brasil e Portugal) ~ 80% da base de treino
- Espanhol ~ 1.5% da base de treino
- Italiano ~ 1.5% da base de treino
- Francês ~ 2% da base de treino
- Inglês ~ 15% da base de treino
Versões
Foram treinados dois tipos diferentes de tokenizadores:
- Proposta geral - treinado em textos de múltiplas naturezas.
- No code - treinado em textos de múltiplas naturezas menos programação. Foram removidos textos de repositórios, livros, pdfs... tudo que possuia alguma linguagem de programação.
Vocab. | Geral | NoCode |
---|---|---|
32 | ✓ | ✓ |
50 | ✓ | ✓ |
60 | ✓ | ✓ |
70 | ✓ | ✓ |
80 | ✓ | ✓ |
90 | ✓ | ✓ |
100 | ✓ | ✓ |
110 | ✓ | |
120 | ✓ | ✓ |
130 | ✓ | |
150 | ✓ | ✓ |
Changelog
- version 0.0.5 - first usable version
Project details
Release history Release notifications | RSS feed
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for charylu_tokenizer-0.0.5-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 3c3af2492a1e81fe4ea92c5f20ec95983c3bdebf19da5dcf001f50c3f7b4af87 |
|
MD5 | 41cf0d9dbc52007cbd2f9e6156dba41e |
|
BLAKE2b-256 | d5d5d3ebc34954864f9ae18b77b50cb24b63f50d4313ce66eb3ffb31c58525e4 |