Skip to main content

Biblioteca com tokenizadores criados por Luis Chary

Project description

CharyluTokenizer

Biblioteca elaborada e utilizada por Luis Felipe Chary para utilização em projetos de DeepLearning envolvendo linguagem natural.

Consiste em uma gama de tokenizadores treinados utilizando a biblioteca Tokenizers mas com conjunto de dados próprios. Todos os tokenizadores foram treinados utilizando o algoritmo byte-pair encoding.

Os tokenizadores foram especialmente projetados para utilização em linguas latinas, com foco no Português.

Utilização básica

Para utilizar os tokenizadores utilize o seguinte código de exemplo:

from charylutokenizer.load import load

# inicializa o tokenizer
tokenizer = load(90, "_nocode") # tamanho do vocabulario desejado (k) e tipo

# tokeniza string
tokenizer.tokenize("texto de teste") # [47941, 9851, 16941]

# detokeniza tokens
tokenizer.detokenize([47941, 9851, 16941]) # "testo de teste"

Escopo

Os tokenizadores foram treinados em uma base proprietária que possui uma ampla gama de origens de textos (internet, livros, publicações científicas, repositórios de código, etc).

Para o treinamento dos tokenizadores, foi feita uma filtragem principalmente nas línguas de modo a aumentar a eficiência nas linguas latinas e inglês, dessa forma o tokenizador deve comportar bem:

  • Português (Brasil e Portugal) ~ 80% da base de treino
  • Espanhol ~ 1.5% da base de treino
  • Italiano ~ 1.5% da base de treino
  • Francês ~ 2% da base de treino
  • Inglês ~ 15% da base de treino

Versões

Foram treinados dois tipos diferentes de tokenizadores:

  1. Proposta geral - treinado em textos de múltiplas naturezas.
  2. No code - treinado em textos de múltiplas naturezas menos programação. Foram removidos textos de repositórios, livros, pdfs... tudo que possuia alguma linguagem de programação.
Vocab. Geral NoCode
32
50
60
70
80
90
100
110
120
130
150

Changelog

  • version 0.0.5 - first usable version

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

charylu-tokenizer-0.0.6.tar.gz (19.5 MB view details)

Uploaded Source

File details

Details for the file charylu-tokenizer-0.0.6.tar.gz.

File metadata

  • Download URL: charylu-tokenizer-0.0.6.tar.gz
  • Upload date:
  • Size: 19.5 MB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/5.1.0 CPython/3.10.12

File hashes

Hashes for charylu-tokenizer-0.0.6.tar.gz
Algorithm Hash digest
SHA256 d95425c9a49eccec4f2760b9d6dd1ad35260524622ad7e5569d32b8a3035ffa8
MD5 779e78093bf293f9f48b69031cb549e7
BLAKE2b-256 306894db0c1076d854b4c4b2518e6ccb7d64029e83f8502681c2f98f83cae45b

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page