Skip to main content

Biblioteca com tokenizadores criados por Luis Chary

Project description

CharyluTokenizer

Biblioteca elaborada e utilizada por Luis Felipe Chary para utilização em projetos de DeepLearning envolvendo linguagem natural.

Consiste em uma gama de tokenizadores treinados utilizando a biblioteca Tokenizers mas com conjunto de dados próprios. Todos os tokenizadores foram treinados utilizando o algoritmo byte-pair encoding.

Os tokenizadores foram especialmente projetados para utilização em linguas latinas, com foco no Português.

Utilização básica

Para utilizar os tokenizadores utilize o seguinte código de exemplo:

from charylutokenizer.load import load

# inicializa o tokenizer
tokenizer = load(90, "_nocode") # tamanho do vocabulario desejado (k) e tipo

# tokeniza string
tokenizer.tokenize("texto de teste") # [47941, 9851, 16941]

# detokeniza tokens
tokenizer.detokenize([47941, 9851, 16941]) # "testo de teste"

Escopo

Os tokenizadores foram treinados em uma base proprietária que possui uma ampla gama de origens de textos (internet, livros, publicações científicas, repositórios de código, etc).

Para o treinamento dos tokenizadores, foi feita uma filtragem principalmente nas línguas de modo a aumentar a eficiência nas linguas latinas e inglês, dessa forma o tokenizador deve comportar bem:

  • Português (Brasil e Portugal) ~ 80% da base de treino
  • Espanhol ~ 1.5% da base de treino
  • Italiano ~ 1.5% da base de treino
  • Francês ~ 2% da base de treino
  • Inglês ~ 15% da base de treino

Versões

Foram treinados dois tipos diferentes de tokenizadores:

  1. Proposta geral - treinado em textos de múltiplas naturezas.
  2. No code - treinado em textos de múltiplas naturezas menos programação. Foram removidos textos de repositórios, livros, pdfs... tudo que possuia alguma linguagem de programação.
Vocab. Geral NoCode
32
50
60
70
80
90
100
110
120
130
150

Changelog

  • version 0.0.5 - first usable version

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

charylu_tokenizer-0.0.5.tar.gz (19.5 MB view hashes)

Uploaded Source

Built Distribution

charylu_tokenizer-0.0.5-py3-none-any.whl (19.8 MB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page