Skip to main content

Este pacote visa criar uma ferramenta simples que pode auxiliar pessoas que trbalham com dados a identificar se em um determinado conjunto de dados, existem dados pessoais.

Project description

Início rápido

Contexto

Este projeto PII Brasil consiste no resultado do trabalho de conclusão de curso de Pedro Henrique Camapgna para o MBA em Data Science and Analytics USP Esalq.

Este pacote visa criar uma ferramenta simples que pode auxiliar pessoas que trbalham com dados a identificar se em um determinado conjunto de dados, existem dados pessoais. Isso porque, ainda que existem outros pacotes e ferramentas dedicadas a fazer o mesmo, muitos deles não estão costumizados para encontrar dados no padrão brasileiro, desde nomes de pessoas à documentos específicos como o Cadastro de Pessoas Físicas (CPF).

Instalação

Instalando o pacote via pip

pip install identificador-pii

Documentação

Clique aqui para ir para a documentação oficial

Comece aqui

Classificando uma coluna de um DataFrame

    from identificador_pii.identificador import IdentificadorPII
    import pandas as pd

    a = IdentificadorPII()


    data = {'coluna1': ['12345678901', '98765432109', '123.456.789-01', '987.654.321-09', '123.456.789.01'],
            'coluna2': ['(11) 1234-5678', '(22) 98765-4321', '12345-6789', '98765-4321', '11 12345-6789'],
            'coluna3': ['Fábio Santos', 'Sergio Conceição', 'Maria Souza', 'João Rodrigues', 'Richard Tomiaka' ],
            'coluna4':[15, 200, 456, 22, 765 ]}
    df = pd.DataFrame(data

    a.clasify_column(df, 'coluna1')

Classificando todas as colunas de um DataFrame

    from identificador_pii.identificador import IdentificadorPII
    import pandas as pd

    data = {'coluna1': ['12345678901', '98765432109', '123.456.789-01', '987.654.321-09', '123.456.789.01'],
            'coluna2': ['(11) 1234-5678', '(22) 98765-4321', '12345-6789', '98765-4321', '11 12345-6789'],
            'coluna3': ['Fábio Santos', 'Sergio Conceição', 'Maria Souza', 'João Rodrigues', 'Richard Tomiaka' ],
            'coluna4':[15, 200, 456, 22, 765 ]}
    df = pd.DataFrame(data)

    a.classify_df(df)

Fluxograma de uso da biblioteca

graph TD;
    %% Definição do fluxo
    A[Início] --> B[Carregar dataset];
    B --> C[Usar biblioteca identificador_pii?];
    C -->|Sim| D[Escolher função];
    C -->|Não| F[Fim];
    
    D --> E1[Classificar uma coluna];
    D --> E2[Classificar todas as colunas];
    
    E1 --> G1[Passar nome da coluna como parâmetro];
    G1 --> H1[Classificar coluna];
    
    H1 --> I1[Verificar resultados];

    E2 --> G2[Classificar todas as colunas do dataframe];
    G2 --> H2[Classificar dataframe];
    H2 --> I2[Verificar resultados];

    I1 --> F[Fim];
    I2 --> F[Fim];

    %% Definindo animações para os nós
    classDef animated fill:#AAA4,stroke:#333,stroke-width:4px,animation: fade-in 2s ease-in-out infinite alternate;

    %% Aplicando animações aos nós para guiar o usuário
    class A,B,C,D,E1,E2,G1,H1,I1,G2,H2,I2,F animated;

Badges


Documentation Status

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

identificador_pii-0.1.6.tar.gz (18.1 kB view details)

Uploaded Source

Built Distribution

identificador_pii-0.1.6-py3-none-any.whl (18.6 kB view details)

Uploaded Python 3

File details

Details for the file identificador_pii-0.1.6.tar.gz.

File metadata

  • Download URL: identificador_pii-0.1.6.tar.gz
  • Upload date:
  • Size: 18.1 kB
  • Tags: Source
  • Uploaded using Trusted Publishing? No
  • Uploaded via: poetry/1.8.3 CPython/3.9.13 Windows/10

File hashes

Hashes for identificador_pii-0.1.6.tar.gz
Algorithm Hash digest
SHA256 8a57eb1dd5bb42b733de4fd43d89d1d7e89c9b99d48a0896be6eef5efdc9bcad
MD5 6f5b69f121ea015116d23d1afcf82dfb
BLAKE2b-256 6dfb950f7ac19a722d05444bd540d7f420e3ff713051185f8a1886bf0a8e8dc2

See more details on using hashes here.

File details

Details for the file identificador_pii-0.1.6-py3-none-any.whl.

File metadata

File hashes

Hashes for identificador_pii-0.1.6-py3-none-any.whl
Algorithm Hash digest
SHA256 c4ca81f1c1af3e2ba37e27c8b26dadd780d7d5584c3dea1704e1b7e7a3d5712f
MD5 210329504067b67efa6a88b06758d128
BLAKE2b-256 0f623f814a74ad2d25d2a37b4b272ea7fe1a8476bdf4e34dcb4dffd151d66a85

See more details on using hashes here.

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page