AiBox Natural Language Processing Toolkit.

These details have not been verified by PyPI

Project links

Project description

aibox-nlp

Uma biblioteca de Processamento de Linguagem Natural para o Português Brasileiro.

Funcionalidades • Quick Start • Instalação

Funcionalidades

315+ características textuais para o Português Brasileiro
- CohMetrix-BR, NILCMetrix, Características Gramaticais, e outras!
Classificadores e Regressores clássicos
- SVM, SVR, XGBoost, CatBoost, LGBM, RF, e outros!
Classificação e Regressão com Deep Learning
- BERT, LSTM, BI-LSTM, CharCNN, entre outros!
Várias Estratégias de Vetorização
- Vetorização baseada em Embeddings (nível de sentença, nível de palavra), baseada em TF-IDF, e outros!
Reprodutibilidade
- Todos experimentos são reprodutíveis, basta indicar uma seed;

[!IMPORTANT] Acesse a wiki da biblioteca e documentação da API para obter mais informações!

Quick Start

A biblioteca se baseia em 3 entidades básicas:

Dataset
- Um dataset representa um conjunto de pares de textos e targets (classes, ou valores), que devem ser utilizados para resolver um problema de classificação ou regressão.
Metric
- Uma métrica permite as saídas de um dado estimador com os valores ground-truth do dataset.
- Por exemplo, Precisão, Revocação e F1-score são métricas para avaliação.
- Também existem outras métricas como o Kappa e Kappa Vizinho.
Pipeline
- Representam um conjunto de 3 componentes:
  1. Estratégia de Vetorização
    - Converte um texto para sua representação numérica.
    - Alguns exemplos são extratores de características, extração de Embeddings (BERT, FastText, etc), ou TF-IDF.
  2. Estimador
    - Representam um algoritmo para classificação/regressão.
    - Alguns exemplos são SVM, SVR, Árvores de Decisão, Redes Neurais.
  3. Pós-processamento
    - Estratégia aplicada após a predição pelo estimador.
    - Pode ser utilizada para garantir os limites da saída, ou conversão de regressão para classificação.

Um Experimento permite comparar múltiplas Pipelines com as Métricas escolhidas em um dado Dataset. Para construir um experimento, é possível utilizar as classes presentes em aibox.nlp.experiments ou utilizar os padrões factory/builder presentes em aibox.nlp.factory. Um exemplo básico pode ser encontrado abaixo:

from aibox.nlp.factory.experiment import SimpleExperimentBuilder

builder = SimpleExperimentBuilder()

# Inicialmente, vamos definir o dataset
builder.dataset('essayBR',
                extended=False,
                target_competence='C1')

# Vamos definir o tipo do problema
builder.classification()

# Vamos definir a seed randômica
builder.seed(42)

# Depois, vamos definir algumas métricas
#   que devem ser calculadas
builder.add_metric("accuracy")
builder.add_metric('precision', average='weighted')
builder.add_metric('recall', average='weighted')
builder.add_metric('f1', average='weighted')
builder.add_metric('kappa')
builder.add_metric('neighborKappa')

# Depois, vamos definir qual a métrica
#   que deve ser utilizar para escolher a
#   melhor pipeline
builder.best_criteria('precision', maximize=True, average='weighted')

# Agora, vamos adicionar algumas pipelines baseadas
#   em extração de característica
builder.add_feature_pipeline(
    features=['textualSimplicityBR'],
    estimators=['svm'],
    names=['svm+textual_simplicity'])

builder.add_feature_pipeline(
    features=['readabilityBR'],
    estimators=['svm'],
    names=['svm+readability'])

# Uma vez que tenhamos configurado o experimento,
#   podemos obter uma instância:
experiment = builder.build()

# === Executando o experimento ===
result = experiment.run()

# === Inspecionando os resultados ===
result.best_pipeline.name
# svm+readability

Para mais exemplos, acesse a documentação.

Instalação

A biblioteca pode ser instalada através do seu gerenciador de pacote preferido (e.g., pip, uv):

1. Instalando com um gerenciador de pacotes

# Configurar ambiente virtual
# ...

# Instalar através do pip
$ pip install --upgrade pip uv
$ uv pip install aibox-nlp

# Adicionalmente, instalar dependências opcionais:

# BR contém características para PT-BR
$ pip install aibox-nlp[BR]

# trees contém estimadores baseados em árvore
$ pip install aibox-nlp[trees]

# embeddings contém vetorizadores baseados em modelos
$ pip install aibox-nlp[embeddings]

# Ou, instalar todas:
$ pip install aibox-nlp[all]

2. Instalando a versão `nigthly`

[!NOTE] A versão nightly é experimental e volátil, não é garantido que todas as funcionalidades funcionem como esperado.

$ pip install --upgrade pip uv
$ uv pip install git+https://github.com/aiboxlab/nlp.git@main[all]

License

MIT

Project details

These details have not been verified by PyPI

Project links

Release history Release notifications | RSS feed

0.5.1

Oct 4, 2025

0.5.0

Sep 28, 2025

0.4.1

Jun 5, 2025

This version

0.4.0

Jun 3, 2025

0.3.3

May 31, 2025

0.3.2

May 31, 2025

0.3.1

May 30, 2025

0.3.0

May 30, 2025

0.2.1

May 29, 2025

0.2.0

May 28, 2025

0.1.1

May 27, 2025

0.1.0

May 18, 2025

0.0.6

May 18, 2025

0.0.5

May 16, 2025

0.0.4

May 16, 2025

0.0.3

May 16, 2025

0.0.2

Sep 14, 2024

0.0.1

Sep 14, 2024

0.0.0

Jul 22, 2024

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

aibox_nlp-0.4.0.tar.gz (101.9 kB view details)

Uploaded Jun 3, 2025 Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

The dropdown lists show the available interpreters, ABIs, and platforms. Enable javascript to be able to filter the list of wheel files.

aibox_nlp-0.4.0-py3-none-any.whl (148.1 kB view details)

Uploaded Jun 3, 2025 Python 3

File details

Details for the file aibox_nlp-0.4.0.tar.gz.

File metadata

Download URL: aibox_nlp-0.4.0.tar.gz
Upload date: Jun 3, 2025
Size: 101.9 kB
Tags: Source
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.7.9

File hashes

Hashes for aibox_nlp-0.4.0.tar.gz
Algorithm	Hash digest
SHA256	`060e0b43790dcf03f5fca8a82a97ee01d081a12c25a1871fb47999259848aec2`
MD5	`dd6038810771fcf629d5f865cf5e2e01`
BLAKE2b-256	`d3912f0ab092da66e21f83bc124710da48948c0d7e4df9464dd97e07411d2873`

See more details on using hashes here.

File details

Details for the file aibox_nlp-0.4.0-py3-none-any.whl.

File metadata

Download URL: aibox_nlp-0.4.0-py3-none-any.whl
Upload date: Jun 3, 2025
Size: 148.1 kB
Tags: Python 3
Uploaded using Trusted Publishing? No
Uploaded via: uv/0.7.9

File hashes

Hashes for aibox_nlp-0.4.0-py3-none-any.whl
Algorithm	Hash digest
SHA256	`344f969a2b3b26dd6f70864a6e7133556124b3db4919a2cb436618b3129d74d9`
MD5	`aed12714176e51ad5720261938d1cb5b`
BLAKE2b-256	`5d3ce9bfa55080aa08de5afa3471918b9fc4459965bf4cb3694d2fde69da82b3`

See more details on using hashes here.

aibox-nlp 0.4.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

aibox-nlp

Uma biblioteca de Processamento de Linguagem Natural para o Português Brasileiro.

Funcionalidades

Quick Start

Instalação

1. Instalando com um gerenciador de pacotes

2. Instalando a versão `nigthly`

License

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

aibox-nlp 0.4.0

Navigation

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Project description

aibox-nlp

Uma biblioteca de Processamento de Linguagem Natural para o Português Brasileiro.

Funcionalidades

Quick Start

Instalação

1. Instalando com um gerenciador de pacotes

2. Instalando a versão nigthly

License

Project details

Verified details

Maintainers

Unverified details

Project links

Meta

Classifiers

Release history Release notifications | RSS feed

Download files

Source Distribution

Built Distribution

File details

File metadata

File hashes

File details

File metadata

File hashes

2. Instalando a versão `nigthly`