Skip to main content

Este pacote visa criar uma ferramenta simples que pode auxiliar pessoas que trbalham com dados a identificar se em um determinado conjunto de dados, existem dados pessoais.

Project description

Início rápido

Contexto

Este projeto PII Brasil consiste no resultado do trabalho de conclusão de curso de Pedro Henrique Camapgna para o MBA em Data Science and Analytics USP Esalq.

Este pacote visa criar uma ferramenta simples que pode auxiliar pessoas que trbalham com dados a identificar se em um determinado conjunto de dados, existem dados pessoais. Isso porque, ainda que existem outros pacotes e ferramentas dedicadas a fazer o mesmo, muitos deles não estão costumizados para encontrar dados no padrão brasileiro, desde nomes de pessoas à documentos específicos como o Cadastro de Pessoas Físicas (CPF).

Instalação

Instalando o pacote via pip

pip install identificador-pii

Documentação

Clique aqui para ir para a documentação oficial

Comece aqui

Classificando uma coluna de um DataFrame

    from identificador_pii.identificador import IdentificadorPII
    import pandas as pd

    a = IdentificadorPII()


    data = {'coluna1': ['12345678901', '98765432109', '123.456.789-01', '987.654.321-09', '123.456.789.01'],
            'coluna2': ['(11) 1234-5678', '(22) 98765-4321', '12345-6789', '98765-4321', '11 12345-6789'],
            'coluna3': ['Fábio Santos', 'Sergio Conceição', 'Maria Souza', 'João Rodrigues', 'Richard Tomiaka' ],
            'coluna4':[15, 200, 456, 22, 765 ]}
    df = pd.DataFrame(data

    a.clasify_column(df, 'coluna1')

Classificando todas as colunas de um DataFrame

    from identificador_pii.identificador import IdentificadorPII
    import pandas as pd

    data = {'coluna1': ['12345678901', '98765432109', '123.456.789-01', '987.654.321-09', '123.456.789.01'],
            'coluna2': ['(11) 1234-5678', '(22) 98765-4321', '12345-6789', '98765-4321', '11 12345-6789'],
            'coluna3': ['Fábio Santos', 'Sergio Conceição', 'Maria Souza', 'João Rodrigues', 'Richard Tomiaka' ],
            'coluna4':[15, 200, 456, 22, 765 ]}
    df = pd.DataFrame(data)

    a.classify_df(df)

Fluxograma de uso da biblioteca

graph TD;
    %% Definição do fluxo
    A[Início] --> B[Carregar dataset];
    B --> C[Usar biblioteca identificador_pii?];
    C -->|Sim| D[Escolher função];
    C -->|Não| F[Fim];
    
    D --> E1[Classificar uma coluna];
    D --> E2[Classificar todas as colunas];
    
    E1 --> G1[Passar nome da coluna como parâmetro];
    G1 --> H1[Classificar coluna];
    
    H1 --> I1[Verificar resultados];

    E2 --> G2[Classificar todas as colunas do dataframe];
    G2 --> H2[Classificar dataframe];
    H2 --> I2[Verificar resultados];

    I1 --> F[Fim];
    I2 --> F[Fim];

    %% Definindo animações para os nós
    classDef animated fill:#AAA4,stroke:#333,stroke-width:4px,animation: fade-in 2s ease-in-out infinite alternate;

    %% Aplicando animações aos nós para guiar o usuário
    class A,B,C,D,E1,E2,G1,H1,I1,G2,H2,I2,F animated;

Badges


Documentation Status

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

identificador_pii-0.1.6.tar.gz (18.1 kB view hashes)

Uploaded Source

Built Distribution

identificador_pii-0.1.6-py3-none-any.whl (18.6 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page