Skip to main content

AiBox Natural Language Processing Toolkit.

Project description


AiBox Lab
aibox-nlp

Uma biblioteca de Processamento de Linguagem Natural para o Português Brasileiro.

FuncionalidadesQuick StartInstalação

Python PyPI Acesse no Colab

Funcionalidades

  • 315+ características textuais para o Português Brasileiro;
    • CohMetrix-BR, NILCMetrix, Características Gramaticais, e outras!
  • Classificadores e Regressores clássicos
    • SVM, SVR, XGBoost, CatBoost, LGBM, RF, e outros!
  • Classificação e Regressão com Deep Learning
    • BERT, LSTM, BI-LSTM, CharCNN, entre outros!
  • Várias Estratégias de Vetorização
    • Vetorização baseada em Embeddings (nível de sentença, nível de palavra), baseada em TF-IDF, e outros!
  • Reprodutibilidade
    • Todos experimentos são reprodutíveis, basta indicar uma seed!
  • AutoML: experimentação automática! Selecione um conjunto de dados e a biblioteca procura o melhor classificador/regressor
    • Backend com optuna para otimização de parâmetros e motores de busca

Quick Start

A biblioteca se baseia em 3 entidades básicas:

  • Dataset
    • Um dataset representa um conjunto de pares de textos e targets (classes, ou valores), que devem ser utilizados para resolver um problema de classificação ou regressão.
  • Metric
    • Uma métrica permite as saídas de um dado estimador com os valores ground-truth do dataset.
    • Por exemplo, Precisão, Revocação e F1-score são métricas para avaliação.
    • Também existem outras métricas como o Kappa e Kappa Vizinho.
  • Pipeline
    • Representam um conjunto de 3 componentes:
      1. Estratégia de Vetorização
        • Converte um texto para sua representação numérica.
        • Alguns exemplos são extratores de características, extração de Embeddings (BERT, FastText, etc), ou TF-IDF.
      2. Estimador
        • Representam um algoritmo para classificação/regressão.
        • Alguns exemplos são SVM, SVR, Árvores de Decisão, Redes Neurais.
      3. Pós-processamento
        • Estratégia aplicada após a predição pelo estimador.
        • Pode ser utilizada para garantir os limites da saída, ou conversão de regressão para classificação.

Um Experimento permite comparar múltiplas Pipelines com as Métricas escolhidas em um dado Dataset. Para construir um experimento, é possível utilizar as classes presentes em aibox.nlp.experiments ou utilizar os padrões factory/builder presentes em aibox.nlp.factory. Um exemplo básico pode ser encontrado abaixo:

from aibox.nlp.factory.experiment import SimpleExperimentBuilder

# === Construindo um experimento para classificação no Essay-BR ===
# Por simplicidade, vamos instanciar um experimento
#   para comparar algumas abordagens para classificação
#   da competência 1 do dataset Essay-BR.
builder = SimpleExperimentBuilder()

# Inicialmente, vamos definir o dataset
builder.dataset('essayBR',
                extended=False,
                target_competence='C1')

# Vamos definir o tipo do problema
builder.classification()

# Vamos definir a seed randômica
builder.seed(42)

# Depois, vamos definir algumas métricas
#   que devem ser calculadas
builder.add_metric('precision', average='weighted')
builder.add_metric('recall', average='weighted')
builder.add_metric('f1', average='weighted')
builder.add_metric('kappa')
builder.add_metric('neighborKappa')

# Depois, vamos definir qual a métrica
#   que deve ser utilizar para escolher a
#   melhor pipeline
builder.best_criteria('precision', average='weighted')

# Agora, vamos adicionar algumas pipelines baseadas
#   em extração de característica
builder.add_feature_pipeline(
    features=['textualSimplicityBR'],
    estimators=['svm'],
    names=['svm+textual_simplicity'])

builder.add_feature_pipeline(
    features=['readabilityBR'],
    estimators=['svm'],
    names=['svm+readability'])

# Uma vez que tenhamos configurado o experimento,
#   podemos obter uma instância:
experiment = builder.build()

# === Executando o experimento ===
result = experiment.run()

# === Inspecionando os resultados ===
result.best_pipeline.name
# svm+textual_simplicity

result.best_metrics
# {
#   "svm+textual_simplicity": {
#     "Weighted Precision": 0.33119142,
#     "Weighted Recall": 0.5754923,
#     "Weighted F1-score": 0.42042914,
#     "Kappa": 0.0,
#     "Neighbor Kappa": 0.0
#   },
#   "svm+readability": {
#     "Weighted Precision": 0.33119142,
#     "Weighted Recall": 0.5754923,
#     "Weighted F1-score": 0.42042914,
#     "Kappa": 0.0,
#     "Neighbor Kappa": 0.0
#   }
# }

Para mais exemplos, acesse a documentação.

Instalação

A biblioteca pode ser instalada através do seu gerenciador de pacote preferido (e.g., pip, uv) ou através do git clone:

1. Instalando com um gerenciador de pacotes

# Configurar ambiente virtual
# ...

# Instalar através do pip
$ pip install --upgrade pip uv
$ uv pip install aibox-nlp

# Adicionalmente, instalar dependências opcionais:

# BR contém características para PT-BR
$ pip install aibox-nlp[BR]

# trees contém estimadores baseados em árvore
$ pip install aibox-nlp[trees]

# embeddings contém vetorizadores baseados em modelos
$ pip install aibox-nlp[embeddings]

# Ou, instalar todas:
$ pip install aibox-nlp[all]

2. Instalando localmente

# Clonar repositório
$ git clone https://github.com/aiboxlab/nlp

# Acessar diretório
$ cd nlp

# Configurar ambiente virtual
# ...

# Instalar através do pip
$ pip install --upgrade pip uv
$ uv pip install -e .

# Adicionalmente, instalar dependências
#   desejadas opcionais
$ pip install .[BR]
$ pip install .[trees]
$ pip install .[embeddings]

# Também é possível baixar todas as opcionais:
$ pip install .[all]

License

MIT


Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

aibox_nlp-0.0.5.tar.gz (76.0 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

aibox_nlp-0.0.5-py3-none-any.whl (114.0 kB view details)

Uploaded Python 3

File details

Details for the file aibox_nlp-0.0.5.tar.gz.

File metadata

  • Download URL: aibox_nlp-0.0.5.tar.gz
  • Upload date:
  • Size: 76.0 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.7.4

File hashes

Hashes for aibox_nlp-0.0.5.tar.gz
Algorithm Hash digest
SHA256 e57042d12eed22cdcce004d1af569f6118f527c9ab737fbc40b02528856ea8b6
MD5 51f49a0f868ab27eae5f70a0ec5f89da
BLAKE2b-256 1dcc7e9cb94cb6815dc09e47b96ce9fe26361144c26ab9766e00e60a1653f86b

See more details on using hashes here.

File details

Details for the file aibox_nlp-0.0.5-py3-none-any.whl.

File metadata

  • Download URL: aibox_nlp-0.0.5-py3-none-any.whl
  • Upload date:
  • Size: 114.0 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: uv/0.7.4

File hashes

Hashes for aibox_nlp-0.0.5-py3-none-any.whl
Algorithm Hash digest
SHA256 d82efce5bcf2dbaae876f6ded946b498c1fec7cfd75d070dec9017e482959b7c
MD5 56e5d69cd02b920677b1bd5a2ebcad2b
BLAKE2b-256 18477a3508a5652d7bccc8b26bb6953fa4ab2ae24107368c2df25a310ec96e25

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page