Este pacote visa criar uma ferramenta simples que pode auxiliar pessoas que trbalham com dados a identificar se em um determinado conjunto de dados, existem dados pessoais.
Project description
Início rápido
Contexto
Este projeto PII Brasil consiste no resultado do trabalho de conclusão de curso de Pedro Henrique Camapgna para o MBA em Data Science and Analytics USP Esalq.
Este pacote visa criar uma ferramenta simples que pode auxiliar pessoas que trbalham com dados a identificar se em um determinado conjunto de dados, existem dados pessoais. Isso porque, ainda que existem outros pacotes e ferramentas dedicadas a fazer o mesmo, muitos deles não estão costumizados para encontrar dados no padrão brasileiro, desde nomes de pessoas à documentos específicos como o Cadastro de Pessoas Físicas (CPF).
Instalação
Instalando o pacote via pip
pip install identificador-pii
Documentação
Clique aqui para ir para a documentação oficial
Comece aqui
Classificando uma coluna de um DataFrame
import pandas as pd
data = {'coluna1': ['12345678901', '98765432109', '123.456.789-01', '987.654.321-09', '123.456.789.01'],
'coluna2': ['(11) 1234-5678', '(22) 98765-4321', '12345-6789', '98765-4321', '11 12345-6789'],
'coluna3': ['Fábio Santos', 'Sergio Conceição', 'Maria Souza', 'João Rodrigues', 'Richard Tomiaka' ],
'coluna4':[15, 200, 456, 22, 765 ]}
df = pd.DataFrame(data
clasify_column(df, 'coluna1')
Classificando todas as colunas de um DataFrame
data = {'coluna1': ['12345678901', '98765432109', '123.456.789-01', '987.654.321-09', '123.456.789.01'],
'coluna2': ['(11) 1234-5678', '(22) 98765-4321', '12345-6789', '98765-4321', '11 12345-6789'],
'coluna3': ['Fábio Santos', 'Sergio Conceição', 'Maria Souza', 'João Rodrigues', 'Richard Tomiaka' ],
'coluna4':[15, 200, 456, 22, 765 ]}
df = pd.DataFrame(data)
classify_df(df)
Fluxograma de uso da biblioteca
graph TD;
%% Definição do fluxo
A[Início] --> B[Carregar dataset];
B --> C[Usar biblioteca identificador_pii?];
C -->|Sim| D[Escolher função];
C -->|Não| F[Fim];
D --> E1[Classificar uma coluna];
D --> E2[Classificar todas as colunas];
E1 --> G1[Passar nome da coluna como parâmetro];
G1 --> H1[Classificar coluna];
H1 --> I1[Verificar resultados];
E2 --> G2[Classificar todas as colunas do dataframe];
G2 --> H2[Classificar dataframe];
H2 --> I2[Verificar resultados];
I1 --> F[Fim];
I2 --> F[Fim];
%% Definindo animações para os nós
classDef animated fill:#AAA4,stroke:#333,stroke-width:4px,animation: fade-in 2s ease-in-out infinite alternate;
%% Aplicando animações aos nós para guiar o usuário
class A,B,C,D,E1,E2,G1,H1,I1,G2,H2,I2,F animated;
Badges
Project details
Download files
Download the file for your platform. If you're not sure which to choose, learn more about installing packages.
Source Distribution
Built Distribution
Hashes for identificador_pii-0.1.3-py3-none-any.whl
Algorithm | Hash digest | |
---|---|---|
SHA256 | 80f21a686396c3bb2d662ef2739da1598299c24b8cd6ccb44bb6f1f9e6894f3d |
|
MD5 | 0b797c9f73ad95949651b6ffa7e895f0 |
|
BLAKE2b-256 | 9feca0434d27a3222d4c3ff1c99558e0704b881209a079aa624335c136228290 |