A Python library to generate various synthetic DataFrames for different business sectors (Tech, Food, Finance, Apparel, forestry, etc.).
Project description
leblanc: Sectorial Synthetic Data Generator
I. Overview
leblanc is a modular Python library designed for the rapid generation of large-scale synthetic datasets across various business sectors. It is primarily built using Pandas, NumPy, and Faker to create realistic, structured DataFrames suitable for Data Science training, testing, and exploratory data analysis (EDA).
The library supports generating sector-specific data, complete with domain logic (e.g., product recurrence in Health, climate impact in Agribusiness, risk in Financials).
Supported Sectors (Modules)
| Module | Data Generated | Key Domain Variables |
|---|---|---|
tech |
Tech Sales | Unit Price, Quantity, Category |
food |
Food & Beverages Sales | Expiration Date, Perishability |
apparel |
Apparel & Fashion Sales | Size, Color, Return Flag |
financial |
Financial Transactions | Interest Rate, Client Risk Level, Default Flag |
health_beauty |
Health & Beauty Sales/Services | Recurrence Days, Sales Channel |
agribusiness |
Agribusiness Records | Climate Condition, Area (Ha), Production Yield |
forestry |
Forestry Inventory/Harvest | Planting Age, Management Type, Total Volume ($m^3$) |
II. Installation
leblanc is available on PyPI. Use pip to install the latest stable version:
pip install leblanc
III. Basic Usage Example
The library exposes individual generation functions directly from the main package. The set_seed utility is recommended for data reproducibility.
import pandas as pd
from leblanc import generate_tech_sales, generate_agribusiness_records, set_seed
# Ensure data is reproducible across environments
set_seed(42)
# 1. Generate Technology Sales Data
df_tech_sales = generate_tech_sales(num_records=1000)
print(" Technology Data Sample")
print(df_tech_sales.head())
# 2. Generate Agribusiness Records
df_agro_records = generate_agribusiness_records(num_records=500)
print("\n Agribusiness Data Sample")
print(df_agro_records.head())
IV. License
This project is licensed under the Apache License, Version 2.0. See the LICENSE file for details.
🇧🇷 leblanc: Gerador Setorial de Dados Sintéticos
I. Visão Geral
leblanc é uma biblioteca Python modular projetada para a geração rápida de conjuntos de dados sintéticos de grande escala em diversos setores de negócios. É construída primariamente utilizando Pandas, NumPy e Faker para criar DataFrames estruturados e realistas, adequados para treinamento em Data Science, testes e análise exploratória de dados (AED).
A biblioteca suporta a geração de dados específicos do domínio, completos com lógica de negócio (ex: recorrência de produto em Saúde, impacto climático em Agronegócios, risco em Finanças).
Setores Suportados (Módulos)
leblanc: Gerador Setorial de Dados Sintéticos
I. Visão Geral
leblanc é uma biblioteca Python modular projetada para a geração rápida de grandes volumes de dados sintéticos em diversos setores de negócios. Ela é construída principalmente com Pandas, NumPy e Faker, permitindo criar DataFrames estruturados e realistas, adequados para treinamento em Data Science, testes e análise exploratória de dados (AED).
A biblioteca oferece geração de dados específica por setor, incluindo lógica de domínio (ex.: recorrência de produtos em Saúde, impacto climático em Agronegócios, risco em Finanças).
Setores Suportados (Módulos)
| Módulo | Dados Gerados | Variáveis-Chave do Domínio |
|---|---|---|
tech |
Vendas de Tecnologia | Preço Unitário, Quantidade, Categoria |
food |
Vendas de Alimentos e Bebidas | Data de Validade, Perecibilidade |
apparel |
Vendas de Vestuário e Moda | Tamanho, Cor, Flag de Devolução |
financial |
Transações Financeiras | Taxa de Juros, Nível de Risco do Cliente, Flag de Inadimplência |
health_beauty |
Vendas/Serviços de Saúde e Beleza | Dias de Recorrência, Canal de Vendas |
agribusiness |
Registros de Agronegócios | Condição Climática, Área (Ha), Produtividade |
forestry |
Inventário/Colheita Florestal | Idade do Plantio, Tipo de Manejo, Volume Total (m³) |
II. Instalação
leblanc está disponível no PyPI. Use o pip para instalar a versão estável mais recente:
pip install leblanc
III. Exemplo de Uso Básico
A biblioteca expõe funções de geração individuais diretamente do pacote principal. A função auxiliar set_seed é recomendada para garantir a reprodutibilidade dos dados.
import pandas as pd
from leblanc import generate_tech_sales, generate_agribusiness_records, set_seed
# Garante que os dados sejam reprodutíveis em todos os ambientes
set_seed(42)
# 1. Gera Dados de Vendas de Tecnologia
df_vendas_tech = generate_tech_sales(num_records=1000)
print("\n Amostra de Dados de Tecnologia")
print(df_vendas_tech.head())
# 2. Gera Registros de Agronegócios
df_registros_agro = generate_agribusiness_records(num_records=500)
print("\n Amostra de Dados de Agronegócios")
print(df_registros_agro.head())
IV. Licença
Este projeto está licenciado sob a Apache License, Version 2.0. Consulte a LICENSE para obter detalhes.
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Filter files by name, interpreter, ABI, and platform.
If you're not sure about the file name format, learn more about wheel file names.
Copy a direct link to the current filters
File details
Details for the file leblanc-0.6.2.tar.gz.
File metadata
- Download URL: leblanc-0.6.2.tar.gz
- Upload date:
- Size: 16.6 kB
- Tags: Source
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.10.0
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
88ca01b88700cff0146f5930216cfd01e22dc62670c9027acb9838aee215c066
|
|
| MD5 |
371ea3ec3d8c00bc1df9cbb35aa5bf36
|
|
| BLAKE2b-256 |
ecf5a0d487f7395fcda2f476ff2f92059df00512e8f5f00b8ef6afa16bf7daa7
|
File details
Details for the file leblanc-0.6.2-py3-none-any.whl.
File metadata
- Download URL: leblanc-0.6.2-py3-none-any.whl
- Upload date:
- Size: 21.7 kB
- Tags: Python 3
- Uploaded using Trusted Publishing? No
- Uploaded via: twine/6.2.0 CPython/3.10.0
File hashes
| Algorithm | Hash digest | |
|---|---|---|
| SHA256 |
94e30841a8790d6ba43edfca98ba59eccb8a18bbaa3929627f7d983aac2cf786
|
|
| MD5 |
0d872cc4609cf9a40ec14e532038f262
|
|
| BLAKE2b-256 |
b7205a6edc2414d54e5a5f7f32f24c8026aa73651c769e53fe9aede80e50fcfb
|