Skip to main content

A Python library to generate various synthetic DataFrames for different business sectors (Tech, Food, Finance, Apparel, forestry, etc.).

Project description

leblanc: Sectorial Synthetic Data Generator

I. Overview

leblanc is a modular Python library designed for the rapid generation of large-scale synthetic datasets across various business sectors. It is primarily built using Pandas, NumPy, and Faker to create realistic, structured DataFrames suitable for Data Science training, testing, and exploratory data analysis (EDA).

The library supports generating sector-specific data, complete with domain logic (e.g., product recurrence in Health, climate impact in Agribusiness, risk in Financials).

Supported Sectors (Modules)

Module Data Generated Key Domain Variables
tech Tech Sales Unit Price, Quantity, Category
food Food & Beverages Sales Expiration Date, Perishability
apparel Apparel & Fashion Sales Size, Color, Return Flag
financial Financial Transactions Interest Rate, Client Risk Level, Default Flag
health_beauty Health & Beauty Sales/Services Recurrence Days, Sales Channel
agribusiness Agribusiness Records Climate Condition, Area (Ha), Production Yield
forestry Forestry Inventory/Harvest Planting Age, Management Type, Total Volume ($m^3$)

II. Installation

leblanc is available on PyPI. Use pip to install the latest stable version:

pip install leblanc

III. Basic Usage Example

The library exposes individual generation functions directly from the main package. The set_seed utility is recommended for data reproducibility.

import pandas as pd
from leblanc import generate_tech_sales, generate_agribusiness_records, set_seed

# Ensure data is reproducible across environments
set_seed(42)

# 1. Generate Technology Sales Data
df_tech_sales = generate_tech_sales(num_records=1000)
print(" Technology Data Sample")
print(df_tech_sales.head())

# 2. Generate Agribusiness Records
df_agro_records = generate_agribusiness_records(num_records=500)
print("\n Agribusiness Data Sample")
print(df_agro_records.head())

IV. License

This project is licensed under the Apache License, Version 2.0. See the LICENSE file for details.

🇧🇷 leblanc: Gerador Setorial de Dados Sintéticos

I. Visão Geral

leblanc é uma biblioteca Python modular projetada para a geração rápida de conjuntos de dados sintéticos de grande escala em diversos setores de negócios. É construída primariamente utilizando Pandas, NumPy e Faker para criar DataFrames estruturados e realistas, adequados para treinamento em Data Science, testes e análise exploratória de dados (AED).

A biblioteca suporta a geração de dados específicos do domínio, completos com lógica de negócio (ex: recorrência de produto em Saúde, impacto climático em Agronegócios, risco em Finanças).

Setores Suportados (Módulos)

leblanc: Gerador Setorial de Dados Sintéticos

I. Visão Geral

leblanc é uma biblioteca Python modular projetada para a geração rápida de grandes volumes de dados sintéticos em diversos setores de negócios. Ela é construída principalmente com Pandas, NumPy e Faker, permitindo criar DataFrames estruturados e realistas, adequados para treinamento em Data Science, testes e análise exploratória de dados (AED).

A biblioteca oferece geração de dados específica por setor, incluindo lógica de domínio (ex.: recorrência de produtos em Saúde, impacto climático em Agronegócios, risco em Finanças).

Setores Suportados (Módulos)

Módulo Dados Gerados Variáveis-Chave do Domínio
tech Vendas de Tecnologia Preço Unitário, Quantidade, Categoria
food Vendas de Alimentos e Bebidas Data de Validade, Perecibilidade
apparel Vendas de Vestuário e Moda Tamanho, Cor, Flag de Devolução
financial Transações Financeiras Taxa de Juros, Nível de Risco do Cliente, Flag de Inadimplência
health_beauty Vendas/Serviços de Saúde e Beleza Dias de Recorrência, Canal de Vendas
agribusiness Registros de Agronegócios Condição Climática, Área (Ha), Produtividade
forestry Inventário/Colheita Florestal Idade do Plantio, Tipo de Manejo, Volume Total (m³)

II. Instalação

leblanc está disponível no PyPI. Use o pip para instalar a versão estável mais recente:

pip install leblanc

III. Exemplo de Uso Básico

A biblioteca expõe funções de geração individuais diretamente do pacote principal. A função auxiliar set_seed é recomendada para garantir a reprodutibilidade dos dados.

import pandas as pd
from leblanc import generate_tech_sales, generate_agribusiness_records, set_seed

# Garante que os dados sejam reprodutíveis em todos os ambientes
set_seed(42)

# 1. Gera Dados de Vendas de Tecnologia
df_vendas_tech = generate_tech_sales(num_records=1000)
print("\n Amostra de Dados de Tecnologia")
print(df_vendas_tech.head())

# 2. Gera Registros de Agronegócios
df_registros_agro = generate_agribusiness_records(num_records=500)
print("\n Amostra de Dados de Agronegócios")
print(df_registros_agro.head())

Leblanc Banner

IV. Licença

Este projeto está licenciado sob a Apache License, Version 2.0. Consulte a LICENSE para obter detalhes.

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

leblanc-0.6.1.tar.gz (14.8 kB view details)

Uploaded Source

Built Distribution

If you're not sure about the file name format, learn more about wheel file names.

leblanc-0.6.1-py3-none-any.whl (18.6 kB view details)

Uploaded Python 3

File details

Details for the file leblanc-0.6.1.tar.gz.

File metadata

  • Download URL: leblanc-0.6.1.tar.gz
  • Upload date:
  • Size: 14.8 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.10.0

File hashes

Hashes for leblanc-0.6.1.tar.gz
Algorithm Hash digest
SHA256 e170ff85d1015793ac6f9eda6ded0a38cf7de98545ba8f1a543bf8fdcec81991
MD5 8eac2d7166379b8f9a2e6e7d6c40ac10
BLAKE2b-256 0d451c0e9042e2e322141cb27b33473ed2f7458338b35d40f2a978a1ee6dd57d

See more details on using hashes here.

File details

Details for the file leblanc-0.6.1-py3-none-any.whl.

File metadata

  • Download URL: leblanc-0.6.1-py3-none-any.whl
  • Upload date:
  • Size: 18.6 kB
  • Tags: Python 3
  • Uploaded using Trusted Publishing? No
  • Uploaded via: twine/6.2.0 CPython/3.10.0

File hashes

Hashes for leblanc-0.6.1-py3-none-any.whl
Algorithm Hash digest
SHA256 aca2df3187d97caa49f219a9d29e3568ef771abfd8bdc9c691e582429eaac57d
MD5 4e156bbde924fc9dc062ab6575607ad6
BLAKE2b-256 d0887a4770557cd5ff895320f366f320e816c9c1ad470d1a44be67081d0e86a6

See more details on using hashes here.

Supported by

AWS Cloud computing and Security Sponsor Datadog Monitoring Depot Continuous Integration Fastly CDN Google Download Analytics Pingdom Monitoring Sentry Error logging StatusPage Status page